2012-04-29 52 views
0

我的主頁有鏈接到頁面a.html和b.html。在與這兩頁相同的目錄中,我有頁c.htmld.html其中未鏈接到任何其他頁網絡爬蟲是否僅依靠主頁上的鏈接來進行爬網?

我的問題是webcrawlers還索引c.html和d.html只是因爲他們在目錄中嗎?或者他們是否只遵循從主頁開始的鏈接並僅索引主頁和頁面a和b?謝謝。

回答

2

網絡爬蟲只知道大概的聯繫,因此,如果世界上沒有人有一個鏈接到網頁c.html和d.html,那麼履帶會發現它們的可能性是非常接近於0

讓我們看到履帶會如何找到那些:

  1. 您的主頁僅指向a.html和b.html,但如果這些網頁有鏈接到C/d.html,那麼crawler將最終他們。
  2. 如果以上內容不正確,但是您已經給某人鏈接了c/d.html並且他們在網上發佈了某些網站上的鏈接,那麼一個爬蟲將會最終找到它們。
  3. 如果您有一個網站地圖,那麼爬蟲最終可能會找到它們。

這假設爬行程序是「好」的,它的爬行時間足夠長,可以到達包含指向c/d.html頁面的鏈接的頁面。

2

大多數網絡抓取工具(特別是Google的抓取工具)都是專有程序,所以您無法確定它們是如何在細節中工作的。

而且網絡爬蟲的細節非常複雜。傳聞谷歌的抓取工具(和索引器)是一個超過700兆字節的二進制可執行文件(在GCC峯會上,谷歌人稱他們正在編譯這種大小的程序,而且我猜測它是它們的抓取工具)。

理論上爬蟲確實遵循鏈接。但你不掌握他們。例如,即使您的主網頁沒有指向它,某些公共郵件存檔(甚至是Google的Google帳戶)也可能指向您的c.html

+0

這是真的。即使我看到谷歌機器人抓取了一些沒有href標籤的url,例如我通過簡單的文本在我的頁面中放置了一個虛擬鏈接地址,並且令人難以置信,google bot隨後出現! – Vahid 2012-04-29 06:34:57