资深博主万风,长期提供【SEO优化技术在线分享】,感谢大家的支持。 解答各行业SEO问题、免费提供网站诊断分析 博主QQ:2947758203

搜索引擎原理的简述与分析 (一)

SEO教程 哈尔滨SEO 446次浏览

搜索引擎原理的掌握和学习,对SEO工作有什么益处呢?很简单,最大益处就是在出现问题时,便于判断问题是如何产生的。结果的处理可能仅仅是点几下鼠标,而原因准确的判断需要大量的积累沉淀才能实现。

 

搜索引擎原理的简述与分析

搜索引擎五大模块

百度官方将搜索引擎的主要工作过程分为:爬取、存备、页面分析、索引、排序等几个主要过程。这几个过程对应着5个工作模块。

抓取??抓取模块
存储??过滤模块
页面分析??收录模块
索引??索引模块
检索??排序模块。
那么,这五个模块是什么意思,有什么作用呢,往下说:

1、抓取模块 (按标准抓取合要求的页面到临时数据库)

抓取模块任务是在数以亿计的页面,顺着链接爬行和抓取网页,简称爬取页面。

这里需要理解和把握几个概念和问题:
A、spider蜘蛛程序
蜘蛛。抓取模块是用于爬取网页的程序叫蜘蛛。那么蜘蛛吃什么呢?人的食物是粮食,蜘蛛的食物是网页。

工作时间。工作时间上蜘蛛24小时工作,不休不眠。

交通。人走在路上,蜘蛛走在链接上。有路人就可以过去,有链接蜘蛛可以过去。
存储。蜘蛛抓取的页面信息和链接信息放到哪里呢?
放到一个临时数据库里。因为在以后还要进一步处理,所以是临时的数据库,爬取的
网页还要经过其他关卡。
国内常见spider:
Baiduspdier、Googlebot、Sogou Web Spider
B、蜘蛛怎样来
蜘蛛走的是链接,所以需从外面铺链接过来,即为蜘蛛铺路。
蜘蛛的路有两种,一种叫外链,一种叫友链。所以蜘蛛不来,是要铺路架桥的。

C、怎么知道蜘蛛来没来
查看网站日志。蜘蛛来过会留下相关信息,包括来的时间,爬取了哪些页面,关于网站日志的分析,后面会写出来。通过网站日志,了解蜘蛛有没有来过。
D,为蜘蛛铺路了,也来了,但是没带走页面。食物,当然是食物??网页的问题。

网页常见不利于蜘蛛抓取的因素包括
网址过长;
网址含有中文;
服务器不稳定;
robots屏蔽;

URL带有难以解析的字符;
动态路径参数复杂太多;

小结:通过这个过程,蜘蛛完成了抓取。

这个模块解决的问题:
假设优化3个月的网站没有收录,是什么问题呢?
如果是新站2个月内只收录一个主页那是正常的,因为搜索引擎有个考核期。
3个月的站没有收录,也做了很多更新,是什么原因呢?认真思考上面的自然有答案。

 

2、过滤模块(过滤存储于正式数据库)

互联网上有巨量页面,每天又产生大量的新页面,而搜索引擎的资源是有局限的,不能够将所有网页收录,会过滤掉不合格网页。

那么什么样页面会被过滤掉呢?
在抓取模块,一部分网页抓不了,在过滤模块,会过滤掉能抓取,但属于“垃圾页面”的网页。

什么属于垃圾页面?
A、内容无法识别。
虽然蜘蛛的识别能力一直在提高,但对于视频、图片的识别一直处于较困难水平,因此,页面只有视频和图片,蜘蛛等于抓到空页面。

B、内容质量雷同或更差
抓取的页面在过滤模块会接受检测,过滤内容重复或更差质量的页面。假设100个页面,10个不利于蜘蛛爬取,30个垃圾页面,到这一步就剩下了60个页面。

小结:如果一个网站查看日志已经来过,且检查排除了不利于抓取的6项因素,那么就
要考虑是不是抓后在过滤模块被过滤掉了,检查是否属于垃圾页面。

 

3、收录模块

通过了过滤模块的筛选,就来到收录模块,这有点像食品加工厂流水线的第三个环节。接着分词、去重、数据格式标准化等处理,放入正式数据库。这个数据库和前面的数据库区别是:前面的是临时数据库。

怎样知道是否被收录?
文章页网址输入百度,有搜索结果即收录。

怎样知道收录了网站多少个页面?
site:主域名

如果没收录,往前找原因,如果收录了,往下进行。

 

4、索引模块

搜索引擎原理中,索引模块也非常重要。要注意的是:收录不等于索引,收录只是放入了正式数据库,未被索引。也就是说,在目录(搜索结果列表)中看不到。

网站想对搜索者展现,还需要索引。

什么是索引?
索引即目录。就像一本书,被索引就是被放进目录供读者选择、查询、查看。

然而书的作者不会随便索引内容,他要提供给读者有价值的。

因此,有一套百度规则在把关。那么,刚才的余下的60个页面,够索引条件有30个,查询收录就是30个。
小结:有一种情况:
查收录有,前100没展现,这又是什么情形呢?

这就是常说的“没放出来”。够收录标准可是不符合索引的标准。

如果不重复、雷同、有文字内容,内容可以识别,不是垃圾页面是收录标准,
那么网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等符合
标准就是索引标准。

 

5、排序模块

如果被索引了,页面将能出现在搜索结果列表中,但是排在第几页,这时候排序模块开始发挥作用。

排序模块是怎样工作的?

搜索引擎具有用于排序的一系列百度算法,经过计算,得出参与排序各页面的权重,从而建立排序。当用户搜索时,排序的结果被呈现出来。

影响搜索结果排序的因素深奥大量技术细节,不必过于涉及,那是百度研发工程师做的事。那下面我们说说大家最感兴趣的排序问题吧。

用户关键词搜索,百度搜索引擎产生动作:
第一是提取相关页面。从哪里提出来的呢?索引库。
第二是把提取出来的网页按照不同维度的得分进行综合排序。

 

“不同维度”包括什么?
1,相关性;
2,权威性;
3,时效性;
4,重要性;
5,欢迎度;
6,丰富度;

注意事项:

搜索引擎抓取的是URL,很多网站将连接做成调取javascript:void(0),导致抓取不到。

 

搜索引擎原理,是我们SEO过程中必备的知识范畴,不仅要理解,还要掌握,才会事半功倍。据统计,搜索引擎原理较不懂者收录率平均高出17个百分点。


本文读者还阅读了以下内容
喜欢 (1)