網(wǎng)站與網(wǎng)站之間互相連接,所以才有了網(wǎng)絡(luò),才稱為了互聯(lián)網(wǎng)。是以搜索引擎基于這個原理發(fā)明了蜘蛛(spider).或者也被稱為機器人(bot).這是一個很形象的比喻,網(wǎng)站和網(wǎng)站的互聯(lián),就好比一只蜘蛛在結(jié)網(wǎng),蜘蛛爬行的網(wǎng)站越多,織的網(wǎng)就越大。蜘蛛的作用就是依據(jù)網(wǎng)站與網(wǎng)站的鏈接訪問和爬行互聯(lián)網(wǎng)上的網(wǎng)站。他的工作流程:搜索引擎的蜘蛛爬行到一個IP或者網(wǎng)址,當(dāng)他爬行到這個IP或者網(wǎng)址的時候首先要訪問一個名為robots.txt的文件,這是一個網(wǎng)站站長給蜘蛛的一個指導(dǎo)性質(zhì)的文件,他告訴了搜索引擎,是否允許被收錄,不允許哪些文件被收錄。然后蜘蛛根據(jù)robots.txt的指示進行有序的爬行。這個時候蜘蛛會對域名或者IP網(wǎng)站的服務(wù)器發(fā)出一個訪問這個網(wǎng)站網(wǎng)頁內(nèi)容的請求,請求訪問允許被收錄的頁面。網(wǎng)站所在服務(wù)器根據(jù)蜘蛛的請求,以HTML代碼的形式反饋給蜘蛛請求頁面。蜘蛛得到代碼后,如同螞蟻搬家,將代碼存入搜索引擎自己的服務(wù)器中的原始頁數(shù)據(jù)庫。