浏览数量: 2372 作者: 本站编辑 发布时间: 2016-09-08 来源: 本站
谷歌搜索引擎最重要的是什么?有人会说是查询结果的准确性,有人会说是查询结果的丰富性,但其实这些都不是谷歌搜索引擎最最致命的地方。对于谷歌搜索引擎来说,最最致命的是查询时间。试想一下,如果你在谷歌界面上查询一个关键词,结果需要5分钟才能将你的查询结果反馈给你,那结果必然是你很快的舍弃掉谷歌。
谷歌搜索引擎为了满足对速度苛刻的要求(现在商业的搜索引擎的查询时间单位都是微秒数量级的),所以采用缓存支持查询需求的方式,也就是说我们在查询搜索时所得到的结果并不是及时的,而是在其服务器已经缓存好了的结果。那么谷歌搜索引擎工作的大体流程是什么样子呢?我们可以理解为三段式。
网页搜集,其实就是大家常说的蜘蛛抓取网页。那么对于蜘蛛(google称之为机器人)来说,他们感兴趣的页面分为三类:
1、蜘蛛从未抓去过的新页面。
2、蜘蛛抓去过,但页面内容有改动的页面。
3、蜘蛛抓取过,但现在已删除了的页面。
那么如何行之有效的发现这三类页面并进行抓取,就是spider程序设计的初衷与目的。那么这里就涉及到一个问题,蜘蛛抓取的起始点。
每一位站长只要你的外贸网站没有被严重降权,那么通过网站后台的服务器,你都可以发现勤劳的蜘蛛光顾你的站点,但是你们有没有想过从编写程序的角度上来说,蜘蛛是怎么来的呢?针对于此,各方有各方的观点。有一种说法,说蜘蛛的抓取是从种子站(或叫高权重站),依照权重由高至低逐层出发的。另一种说法蜘蛛爬在URL集合中是没有明显先后顺序的,搜索引擎会根据你外贸网站内容更新的规律,自动计算出何时是爬取你外贸网站的最佳时机,然后进行抓取。
其实对于不同的谷歌搜索引擎,其抓取出发点定然会有所区别,针对于谷歌,笔者较为倾向于后者。在谷歌官方博客发布的《索引页链接补全机制的一种办法》一文中,其明确指出“spider会尽量探测网页的发布周期,以合理的频率来检查网页”,由此我们可以推断,在谷歌的索引库中,针对每个URL集合,其都计算出适合其的抓取时间以及一系列参数,然后对相应站点进行抓取。
在这里,我要说明一下,就是针对谷歌来说,site的数值并非是蜘蛛已抓取你页面的数值。比如site命令,所得出的数值并不是大家常说的谷歌收录数值,想查询具体的谷歌收录量应该在谷歌提供的站长工具里查询索引数量。
那么蜘蛛如何发现新链接呢?其依靠的就是超链接。我们可以把所有的互联网看成一个有向集合的聚集体,蜘蛛由起始的URL集合A沿着网页中超链接开始不停的发现新页面。在这个过程中,每发现新的URL都会与集合A中已存的进行比对,若是新的URL,则加入集合A中,若是已在集合A中存在,则丢弃掉。蜘蛛对一个站点的遍历抓取策略分为两种,一种是深度优先,另一种就是宽度优先。但是如果是谷歌这类商业搜索引擎,其遍历策略则可能是某种更加复杂的规则,例如涉及到域名本身的权重系数、涉及到谷歌本身服务器矩阵分布等。
焦点领动拥有丰富的外贸网站建设经验,北京外贸建站、上海外贸建站、广州外贸建站、深圳外贸建站、佛山外贸建站、福建外贸建站、浙江外贸建站、山东外贸建站、江苏外贸建站......
想要了解更多搜索引擎优化、外贸营销型网站建设相关知识,请拨打电话:400-6130-885,或者请添加领动小姐姐微信,我们一起交流~