網絡爬蟲是否僅依靠主頁上的鏈接來進行爬網？

我的主頁有鏈接到頁面a.html和b.html。在與這兩頁相同的目錄中，我有頁c.html和d.html其中未鏈接到任何其他頁。網絡爬蟲是否僅依靠主頁上的鏈接來進行爬網？

我的問題是webcrawlers還索引c.html和d.html只是因爲他們在目錄中嗎？或者他們是否只遵循從主頁開始的鏈接並僅索引主頁和頁面a和b？謝謝。

2012-04-29 RJIGO

網絡爬蟲只知道大概的聯繫，因此，如果世界上沒有人有一個鏈接到網頁c.html和d.html，那麼履帶會發現它們的可能性是非常接近於0

讓我們看到履帶會如何找到那些：

這假設爬行程序是「好」的，它的爬行時間足夠長，可以到達包含指向c/d.html頁面的鏈接的頁面。

2012-04-29 06:30:20 Kiril

大多數網絡抓取工具（特別是Google的抓取工具）都是專有程序，所以您無法確定它們是如何在細節中工作的。

而且網絡爬蟲的細節非常複雜。傳聞谷歌的抓取工具（和索引器）是一個超過700兆字節的二進制可執行文件（在GCC峯會上，谷歌人稱他們正在編譯這種大小的程序，而且我猜測它是它們的抓取工具）。

理論上爬蟲確實遵循鏈接。但你不掌握他們。例如，即使您的主網頁沒有指向它，某些公共郵件存檔（甚至是Google的Google帳戶）也可能指向您的c.html。

2012-04-29 06:20:51

這是真的。即使我看到谷歌機器人抓取了一些沒有href標籤的url，例如我通過簡單的文本在我的頁面中放置了一個虛擬鏈接地址，並且令人難以置信，google bot隨後出現！ – Vahid 2012-04-29 06:34:57

回答