SEO搜索引擎工作原理

  • A+
所属分类:日照SEO
摘要

SEO搜索引擎工作原理

SEO搜索引擎工作原理

一、搜索引擎由哪几部分构成?

1查询界面

2搜索引擎结果页面

3爬虫、蜘蛛和机器人

4数据库

5搜索算法

二、搜索引擎结果页面

1 自然排名与ppc的区别 用户关注度分布图

2 百度快照      什么是快照 快照更新

3 搜索关键词的结果总数  研究竞争程度的依据

思考:

1怎么查收录?百度的收录的结果页面和百度的搜索页面的区别是什么?怎么促进收录?收录的意义是什么?

百度不收录,我们发布的文章,推广的网站,所做的一切努力都是无用功。所以我们要采取一些措施促进收录。

一、发原创内容,这个是众所周知的,百度的蜘蛛是喜新厌旧的,所以我们发布的文章最好是原创的,现在重点是原创内容怎么来,我有个秘诀是扫书,比如我们是做医疗的,我把医疗的好多年前的古董书都用扫描仪扫到电脑里,然后安装一个扫描文字识别软件,然后用排版工具和伪原创工具进行包装,一篇篇高质量的原创文章就有了。

二、引蜘蛛,顾名思义就是吸引蜘蛛来爬,这就需要我们到SEOWHY等秒收的论坛贴吧注册账号,然后发布一些坛主和吧主喜欢的的软文,加上自己网站的链接。还有的网站比如SEOWHY就有专门让seoer们引蜘蛛的版块,夫唯老师是很贴心的。

三、发外链,很多seoer每天都在发外链,但是就是不明白发外链的目的。能让我们发外链的地方,本身的权重一般都不是很高,权重高的网站不会让自己到处都是锚文本。所以我们发外链的目的,只是给蜘蛛增加更多的入口,让别人多投我们一票,可能投票的只是个小人物也没关系。

四、百度自家产品

百度对于自己产品是很偏心的,大家都知道。但是具体怎么偏心大家了解的可能不够深入,比如一篇文章,你发到一个新的新浪账号,搜狐账号可能很久不被收录,但是即使百度有个百度知道的六级账号从未开通过百度博客,你再百度博客上发一篇文章,收录也会很快。所以,我们促进收录有些捷径可以走,你懂得!

以上四种方法只是很普通的SEO手法,一般情况下着四种手法综合使用,效果比较好。如果还收录不了,请上seoersun.com 留言。

还有一种可能,是robots.txt写的有问题,之前我分析过一个医院的站,这个医院很有名而且站做了有4年了,就是没有被百度收录,后来我一看原来他的robots.txt 写的是User-agent: *   Disallow: /   我狂汗,你自己设定禁止所有搜索引擎索引!!!

2 怎么看这个关键词的竞争程度?

3 关键词从哪里来?

三、爬虫、蜘蛛和机器人

搜索引擎用来爬行和访问页面的程序被称为蜘蛛。也称为机器人、爬虫。

作用收集信息。

它是怎么按照什么策略爬行的?

1 爬行策略: 深度优先   DFS  Depth-First Traversal

蜘蛛沿着发现的链接一直向前爬行,直到前面在没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行。

优点:网络蜘蛛在设计的时候比较容易。

缺点: 每次爬行一层总要向”蜘蛛老家” 数据库访问一下。问问老总有必要还要爬下一层吗! 爬一层 问一次…. 引用一句高人的话 如果一个蜘蛛不管3721不断往下爬 很可能迷路更有可能爬到国外的网站去.. 本来目标是中文网站 因为IP的问题 国外IP做了中文站的话…. 就容易去别人”老家”了..这样不仅增加了系统数据的复杂度更是增加的服务器的负担

以下我发张图 大家看下: (下面这张是 简单化的网页连接模型图 其中A为起点 也就是蜘蛛索引的起点!)

总共分了5条路径 供蜘蛛爬行! 讲究的是深度!

(下面这张是 经过优化的网页连接模型图! 也就是改进过的蜘蛛深度爬行策略图!)

根据以上2个表格 我们可以得出以下结论:

图1:路径1 ==> A –> B –> E –> H 路径2 ==> A –> B –> E –> i

路径3 ==> A –> C  路径4 ==> A –> D –> F –> K –> L

路径5 ==> A –> D –> G –> K –> L

2 爬行策略: 广度优先  BFS  Breadth First Search

广度优先是蜘蛛在第一个页面上发现多个链接时,不是顺着一个连接一直向前,而是把页面上所有第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。

当然不会派一个蜘蛛去的 每层会派一个或多个蜘蛛Spider去抓取内容!

广度优先是一种横向的抓取方式,他首先从网站的浅层开始抓取(首页),他把首页上链接所指向的页面都抓取出来形成第一个页面集合,然后解析出这些页面内的链接,再根据这些链接抓取下一层的页面,又形成一个页面集合。以此类推就这样递归下去当达到算法中的规定后停止抓取。

(下面这张就是 广度优先策略图(层爬行图))

大家一看就明白了把 聪明的人 下面的文章也不需要看了 答案已经告诉你了 ^ ^

根据以上表格 我们可以得出以下结论路径图:

路径1 ==> A  路径2 ==> B –> C –> D  路径3 ==> E –> F –> G

路径4 ==> H –> i –> K  路径5 ==> L

优点::对数据抓取更容易控制些! 对服务器的负栽相应也明显减轻了许多! 爬虫的分布式处理,使的速度明显提高!

四 数据库

每个搜索引擎都有自己的数据库系统,或是回连接到某个数据库系统。这些数据库中存放着网络中各个URL的各种信息(由爬虫、蜘蛛或者机器人搜集来的)。

可以用不同的方法存储这些数据,通常各个搜索引擎公司还会有自己的一套方法对这些数据进行排序和检索。

数据库是怎么排序的?

1  Pagerank=PR

PR 的因素用于行为因素  社会性

PR是一中在google搜索结果中给网页排名的方法,各种不同的因素给出了网页的实际排名。Google的解释是谁投给谁票。

2 quality scoring

影响质量分数的因素用于设计元素 自我性

域名和URL

网页内容

链接结构

可用性和可访问性

元标签

网页结构

秘密 一个综合因素作用的结果。

五、搜索引擎有哪些算法

搜索引擎的搜索算法就是,先提出要解决的问题(即需要搜索的单词或短语),然后快速的遍历含有已分好类的关键词及相关URL的数据库,接着将含有各个搜索的单词或短语的页面返回给用户。

SEO搜索引擎工作原理

如何被搜索引擎发现并收录的呢

1 网页算法

观察网页上单词和内容之间的关系

A  关键词在内容中如何使用(次数),

B  网页中的其他单词(相关短语和单词的次数)如何彼此关联(相关单词的接近程度)。

C  元标签

2 整体网站算法

观察网站上网页之间的关系

A 主页内容与与其他网页内容相关性

B 网页的体系结构

C 锚文本的使用

D 网站上的网页是如何相互链接起来的

六、搜索引擎的工作原理。

1爬行和抓取网页HTML代码

吸引蜘蛛  pr 更新  导入链接  与首页点击的距离、

爬行时的复制内容检测 遇到权重很低的网站上大量转载或抄袭内容时,很可能不在继续爬行

2放到网页仓库进行预处理

提取文字 锚文本文字 、

中文分词 词典匹配比对词典  基于统计字与字相邻出现的统计概率频率(新出现的词)

去停止词 的 啊 哈

消除噪声 版权声明文字、导航条、广告 文章分类 历史存档 在网站上大量重复出现的区块

去重 基本方法是对页面特征关键词计算指纹 即 从页面主题内容中选取最有代表性的一部分关键词(经常是出现频率最高的关键词),然后计算这些关键词的数字指纹。(10个)

典型的指纹计算方法-MD5算法(信息摘要算法第五版),这类指纹算法的特点是输入(特征关键词)有任何微小的变化,都会导致计算出得指纹有很大差距。

思考

了解了搜索引擎的去重算法,SEO人员就应该知道简单的增加 的 地 得 调换段落顺序这种所谓的伪原创,并不能逃过搜索引擎的去重算法,因为这样的操作无法改变文章的特征关键词。而且搜索引擎的去重算法很可能不止于页面级别,而是进行到段落级别,混合不同的文章、交叉调换段落顺序也不能使转载和抄袭变成原创。

3在计算机进行索引

经过文字提取、分词、消噪、去重后,搜索引擎得到的就是独特的、能反应页面主题内容的、以词为单位的内容。接下来提取关键词,按照分词程序划分好的词,把页面转换为一个关键词组成的集合,同时记录每一个关键词在页面上的出现频率、次数、格式、位置。这样每个页面记录为一串关键词集合。

正向索引(简化的索引词表结构)

倒排索引

如果用户搜索关键词2呢 把文件对应到关键词的映射转换为关键词到文件的映射。

链接关系计算 页面上有哪些链接指向哪些其他页面,每个页面有哪些导入链接,链接使用了什么锚文字  PR

特殊文件处理  PDF word wps  xls ppt txt

图片、视频、FLASH

4 在图书馆里处理用户搜索词(排名处理)

搜索词处理  中文分词、去停止词、指令处理与逻辑高级搜索指令、拼写错误矫正、整合搜索触发

文件匹配 倒排索引

页面权重的初始子集选择

相关性计算 关键词常用程度、词频及密度、关键词位置及形式、关键词距离(切词之后两个词根的距离)、链接分析及页面权重

排名过滤及调整 施加惩罚 百度11位 google的负6、负30、负950

排名显示 所有排名确定后,排名程序调用原始页面的标题标签、说明标签、快照日期等数据显示在页面上。有时搜索引擎需要动态生成页面摘要,而不是调用页面本身的说明标签。

搜索缓存 用户搜索的关键词有一大部分是重复的,搜索引擎会把最常见的搜索词存入缓存

查询及点击日志 搜索用户的IP、关键词、搜索时间 点击了哪些结果页面

5用户搜索界面

简化原理步骤

关键词贯穿始终!!!!

1 提取页面关键词

2 文件对应关键词<=>关键词对应文件

3用户查询关键词呈现文件

  • 我的微信
  • 这是我的微信扫一扫
  • weinxin
  • 我的微信公众号
  • 我的微信公众号扫一扫
  • weinxin