0
商業搜索引擎的爬蟲如何遍歷網頁: 「識別種子頁面並通過連接的鏈接查找其他頁面」 或 「索引網站wwwroot目錄下的每個文件」。爬蟲/搜索引擎如何遍歷網絡?
在後來的選項搜索引擎的情況下,甚至應該索引的東西,不被任何其他頁面引用?
商業搜索引擎的爬蟲如何遍歷網頁: 「識別種子頁面並通過連接的鏈接查找其他頁面」 或 「索引網站wwwroot目錄下的每個文件」。爬蟲/搜索引擎如何遍歷網絡?
在後來的選項搜索引擎的情況下,甚至應該索引的東西,不被任何其他頁面引用?
參考必須存在。它可以是
它可以是任何其他的鏈接。
所以商業搜索引擎不會通過wget-m抓取網站的目錄嗎? – David
@David居然沒有。由於大多數嚴重項目出於安全原因不允許目錄列表。甚至更多,URL結構並不總是反映目錄結構(這很明顯)。另外,如果我沒有錯,wget -m只是FTP鏡像選項。 –
你可以通過它鏡像任何網站wget -m http://www.gnu.org/software/wget/ – David