我知道搜索引擎爲向用戶提供搜索結果所採取的所有基本步驟,但有一件事我不明白,那就是要抓取的網站列表的物理編譯。像googlebot這樣的程序如何獲得他們將搜索的網站的實際列表?網絡爬蟲在哪裏獲取他們的網站列表進行爬網?
1
A
回答
0
這可能會因履帶式到爬行程序而有所不同,但最有可能開始的地方是域名註冊。
0
像谷歌這樣的搜索引擎經常會從其他網站發現新內容。
例如,如果您的網站已被抓取並鏈接到新網站。當Google訪問您的網站並看到新網站時,它也會開始爲新網站編制索引。
另一方面,你也可以ping谷歌與新的網站進行索引,所以它不僅是被動的,而且還活躍。
相關問題
- 1. 網絡爬蟲
- 2. C++網絡爬蟲
- 3. PHP網絡爬蟲
- 4. Python網絡爬蟲
- 5. java網絡爬蟲
- 6. 網絡爬蟲類
- 7. 網絡爬蟲提取
- 8. Scrapy網絡爬蟲獲取錯誤
- 9. 網絡爬蟲的功能
- 10. 網絡爬蟲的Java
- 11. 簡單的網絡爬蟲
- 12. Python中的網絡爬蟲
- 13. 自動網絡爬蟲
- 14. 網絡爬蟲,反饋?
- 15. 遞歸網絡爬蟲perl
- 16. 需要網絡爬蟲
- 17. 網絡爬蟲文本雲
- 18. 硒與python網絡爬蟲
- 19. 網絡爬蟲從Android Market
- 20. 網絡爬蟲應用
- 21. 網絡爬蟲不打印
- 22. python網站爬蟲(多個網站)
- 23. 針對windows的增量爬網支持的網絡爬蟲
- 24. 網絡爬蟲是否僅依靠主頁上的鏈接來進行爬網?
- 25. Erlang中的並行HTTP網絡爬蟲
- 26. 網絡爬蟲的正則表達式
- 27. 網絡爬蟲 - 2000多個網頁中獲取數據(TED網站爲例)
- 28. php爬蟲(抓取單個網站)
- 29. 在Scala中的網絡爬蟲算法
- 30. 在android上的簡單網絡爬蟲?
如果它經常查詢DNS服務器,那麼這不是一個大量的帶寬嗎? –
再一次,它從爬蟲到爬蟲。純粹的假設,但是一旦最初的抓取被「播種」,抓取工具就會發現其他站點抓取並將其輸入到數據庫中,以便以後抓取。許多網站允許您顯式提交要抓取的網站以包含在搜索引擎中,將責任放在用戶上而不是抓取工具上。例如[Bing](http://www.bing.com/toolbox/submit-site-url)或[Google](http://www.google.com/submityourcontent/)。這一切都取決於爬蟲。 –