網絡爬蟲在哪裏獲取他們的網站列表進行爬網？

我知道搜索引擎爲向用戶提供搜索結果所採取的所有基本步驟，但有一件事我不明白，那就是要抓取的網站列表的物理編譯。像googlebot這樣的程序如何獲得他們將搜索的網站的實際列表？網絡爬蟲在哪裏獲取他們的網站列表進行爬網？

2013-07-09 Witch-King

這可能會因履帶式到爬行程序而有所不同，但最有可能開始的地方是域名註冊。

2013-07-09 20:06:43

如果它經常查詢DNS服務器，那麼這不是一個大量的帶寬嗎？ –

再一次，它從爬蟲到爬蟲。純粹的假設，但是一旦最初的抓取被「播種」，抓取工具就會發現其他站點抓取並將其輸入到數據庫中，以便以後抓取。許多網站允許您顯式提交要抓取的網站以包含在搜索引擎中，將責任放在用戶上而不是抓取工具上。例如[Bing]（http://www.bing.com/toolbox/submit-site-url）或[Google]（http://www.google.com/submityourcontent/）。這一切都取決於爬蟲。 –

像谷歌這樣的搜索引擎經常會從其他網站發現新內容。

例如，如果您的網站已被抓取並鏈接到新網站。當Google訪問您的網站並看到新網站時，它也會開始爲新網站編制索引。

另一方面，你也可以ping谷歌與新的網站進行索引，所以它不僅是被動的，而且還活躍。

來源

2017-05-22 15:38:55 ajimix

網絡爬蟲在哪裏獲取他們的網站列表進行爬網？

回答

相關問題