Q

爬蟲/搜索引擎如何遍歷網絡？

2012-06-22 43 views 0 likes

0

商業搜索引擎的爬蟲如何遍歷網頁：「識別種子頁面並通過連接的鏈接查找其他頁面」或「索引網站wwwroot目錄下的每個文件」。爬蟲/搜索引擎如何遍歷網絡？

在後來的選項搜索引擎的情況下，甚至應該索引的東西，不被任何其他頁面引用？

2012-06-22 David

A

回答

1

參考必須存在。它可以是

普通的HTML HREF允許指數
鏈接sitemaps.xml robots.txt中
鏈路允許的履帶由網站站長在自己的搜索引擎後臺提供
參考
等

它可以是任何其他的鏈接。

2012-06-22 20:23:02

+0

所以商業搜索引擎不會通過wget-m抓取網站的目錄嗎？ – David

+1

@David居然沒有。由於大多數嚴重項目出於安全原因不允許目錄列表。甚至更多，URL結構並不總是反映目錄結構（這很明顯）。另外，如果我沒有錯，wget -m只是FTP鏡像選項。 –

+0

你可以通過它鏡像任何網站wget -m http://www.gnu.org/software/wget/ – David

相關問題