2012-06-22 23 views
0

商業搜索引擎的爬蟲如何遍歷網頁: 「識別種子頁面並通過連接的鏈接查找其他頁面」 或 「索引網站wwwroot目錄下的每個文件」。爬蟲/搜索引擎如何遍歷網絡?

在後來的選項搜索引擎的情況下,甚至應該索引的東西,不被任何其他頁面引用?

回答

1

參考必須存在。它可以是

  • 普通的HTML HREF允許指數
  • 鏈接sitemaps.xml robots.txt中
  • 鏈路允許的履帶由網站站長在自己的搜索引擎後臺提供
  • 參考

它可以是任何其他的鏈接。

+0

所以商業搜索引擎不會通過wget-m抓取網站的目錄嗎? – David

+1

@David居然沒有。由於大多數嚴重項目出於安全原因不允許目錄列表。甚至更多,URL結構並不總是反映目錄結構(這很明顯)。另外,如果我沒有錯,wget -m只是FTP鏡像選項。 –

+0

你可以通過它鏡像任何網站wget -m http://www.gnu.org/software/wget/ – David