我的主頁有鏈接到頁面a.html和b.html。在與這兩頁相同的目錄中,我有頁c.html和d.html其中未鏈接到任何其他頁。網絡爬蟲是否僅依靠主頁上的鏈接來進行爬網?
我的問題是webcrawlers還索引c.html和d.html只是因爲他們在目錄中嗎?或者他們是否只遵循從主頁開始的鏈接並僅索引主頁和頁面a和b?謝謝。
我的主頁有鏈接到頁面a.html和b.html。在與這兩頁相同的目錄中,我有頁c.html和d.html其中未鏈接到任何其他頁。網絡爬蟲是否僅依靠主頁上的鏈接來進行爬網?
我的問題是webcrawlers還索引c.html和d.html只是因爲他們在目錄中嗎?或者他們是否只遵循從主頁開始的鏈接並僅索引主頁和頁面a和b?謝謝。
網絡爬蟲只知道大概的聯繫,因此,如果世界上沒有人有一個鏈接到網頁c.html和d.html,那麼履帶會發現它們的可能性是非常接近於0
讓我們看到履帶會如何找到那些:
這假設爬行程序是「好」的,它的爬行時間足夠長,可以到達包含指向c/d.html頁面的鏈接的頁面。
大多數網絡抓取工具(特別是Google的抓取工具)都是專有程序,所以您無法確定它們是如何在細節中工作的。
而且網絡爬蟲的細節非常複雜。傳聞谷歌的抓取工具(和索引器)是一個超過700兆字節的二進制可執行文件(在GCC峯會上,谷歌人稱他們正在編譯這種大小的程序,而且我猜測它是它們的抓取工具)。
理論上爬蟲確實遵循鏈接。但你不掌握他們。例如,即使您的主網頁沒有指向它,某些公共郵件存檔(甚至是Google的Google帳戶)也可能指向您的c.html
。
這是真的。即使我看到谷歌機器人抓取了一些沒有href標籤的url,例如我通過簡單的文本在我的頁面中放置了一個虛擬鏈接地址,並且令人難以置信,google bot隨後出現! – Vahid 2012-04-29 06:34:57