服务热线
0755-23766013
2018-11-09
90
200
在这个互联网信息爆发式增长时代里,我们在做全网营销推广时,SEO人员都不陌生地会接触一个词叫“蜘蛛抓取”。这个蜘蛛,并不是指真正的蜘蛛,而是指搜索引擎蜘蛛。而我们想要做好SEO,了解搜索引擎蜘蛛的工作原理很有必要!
搜索引擎蜘蛛又称网页爬虫。目的是为了抓取高质量的网页内容。我们可以把风互联网可以理解成一张巨大的“蜘蛛网”,搜索引擎蜘蛛是类似实质的“机器人”。蜘蛛的主要任务就是在巨大的蜘蛛网(互联网)中浏览信息,然后把这些信息都抓取到搜索引擎的服务器上,然后建立索引库。就好比机器人浏览我们的网站,然后把内容保存到自己的电脑上。
(图片来源于网络)
搜索引擎蜘蛛的工作原理:
1、搜索引擎派出蜘蛛,蜘蛛接到命令后就到互联网上到处浏览网页,并且对于一些内容做初步的过滤。
2、把抓取到一些觉得有意义的内容存放在临时数据库。
3、经过筛选把一些内容质量较高页面建立索引。
4、从这些索引里面提出内容进行收录,也就是我们所看到的展示在搜索结果当中的页面。
搜索引擎蜘蛛抓取网页的过程:
发现某一个链接 → 下载这一个网页 → 加入到临时库 → 提取网页中的链接 → 在下载网页 → 循环
蜘蛛抓取网页策略:
1、深度优先
简单的说,就是搜索引擎蜘蛛在一个页面发现一个连接然后顺着这个连接爬下去,然后在下一个页面又发现一个连接,然后就又爬下去并且全部抓取,这就是深度优先抓取策略。
2、宽度优先
宽度优先比较好理解,就是搜索引擎蜘蛛先把整个页面的链接全部抓取一次,然后在抓取下一个页面的全部链接。
3、权重优先
如果说宽度优先比深度优先好,其实也不是绝对的,只能说是各有各的好处,现在搜索引擎蜘蛛一般都是两种抓取策略一起用,也就是深度优先+宽度优先,并且在使用这两种策略抓取的时候,要参照这条连接的权重,如果说这条连接的权重还不错,那么就采用深度优先,如果说这条连接的权重很低,那么就采用宽度优先。
以上所介绍的内容,就是搜索引擎蜘蛛的工作原理。但是,由于互联网上的网页,每天都增加那么那么那么多,蜘蛛肯定是不可能完全抓取过来的。所以,如果想要做好SEO效果,就要了解搜索引擎蜘蛛的工作原理,从而创建能吸引蜘蛛抓取的网页。