对于搜索引擎认为重要的页面具有以下特征:网站and页面的权重:对于质量好、网站资格比较旧的会被认为是权重很高的。这样的网站,蜘蛛的爬行深度更大,收录的可能性更高。
更新的速度。蜘蛛在进行访问后就将这些数据存下了,要是再一次的访问没有内容更新,蜘蛛就不会老去抓取。要是更新速度很快,蜘蛛就会经常去抓取。这样子新产生的链接,就会很快的被访问、将新内容抓取。
导入链接:
不管是内外部的链接,想被蜘蛛抓到,就需要导入链接,不然就不会被蜘蛛知道。质量好的导入链接能扩大蜘蛛的爬行深度的抓取。
和第一页的点击距:
网站通常极高权重的的部分都是首页,大多数的外部链接指向它。蜘蛛抓取极多的也是首页,离它越近,权重越高,蜘蛛爬行越频繁。
地址库
想要让网页不会多次的访问、抓取,这时候需要的是地址库,记下发现与抓取的、及发现了未抓取的网页。
这里面的网址有一下几种收集:
人为输入的种子网站。
抓取后从超文本标记语言中解析的网址,跟已经在地址库中的网址比较,要是这个网址里面没有,就记录为带访问的内容。
站长通过一定渠道提交的网址。
蜘蛛根据网址的重要程度对网址从地址库进行提取,浏览,然后将这个网站从记录里面删除,放进访问过的地址里面。
很多的比较重要的搜索引擎都有一个表格,供站长提交网址。可是提交的这些网址只是存进了这地址库,想要让网址被收录需要看一下所提交内容是不是很重要。对于收录的内容极大一部分是蜘蛛自己跟踪发现的。
所以说提交的页面基本上是一点用处也没有,而搜索引擎更偏向通过自己寻找链接得到页面。
文件的储存
蜘蛛抓取的内容放进原始的数据库。这里面的页面和我们访问的超文本标记语言是同样的。不同的网址是不一样的文件编码。
重复内容的检查
抓取的时候会复制内容检测,这时候要是内容是转了其他网站,或者是抄的东西,也许不会再去爬行。这是很多的网站看到有蜘蛛来,可是网站却没有被收录的原因。