回答
碰巧是存儲緩存數據的過程,在緩存數據中,搜索引擎查找超鏈接,可能是文本或圖像超鏈接。然後,它找到一個後,打開該頁面緩存並開始尋找鏈接。這個過程繼續下去,直到找不到更多的鏈接。
因此,在這個超鏈接的長鏈中,幾乎可以肯定的是,大部分互聯網都包含在內。但是,這並不意味着它已經抓取了一切。 由於缺乏鏈接,許多新網站都被排除在外。 以及一些網站不會被抓取,因爲它們不打算被發現。
謝謝@Shashikant_這個過程是從一個特定頁面開始的,它抓取了大部分互聯網頁面? ? –
是的。但是,也有系統可以手動請求爬網或優先考慮爬網,如果您有新網站,則需要手動提交頁面以加快爬網過程,或者搜索引擎可能需要幾天時間才能到達您的網頁網站。 –
感謝您的答案夥伴,這意味着抓取數據庫的大小會隨着時間的推移而增加,並在獲得更好的抓取後得到更好的結果... –
- 1. 自動登錄谷歌網頁爬蟲
- 2. 如何構建一個像谷歌一樣強大的爬蟲?
- 3. 單頁網頁爬蟲PHP
- 4. 如何通過互聯網
- 5. 如何通過互聯網
- 6. 網絡爬蟲 - 找不到對象
- 7. 阻止谷歌爬取每個頁面上的特定鏈接
- 8. .htaccess和谷歌爬蟲錯誤
- 9. 谷歌爬蟲時間限制
- 10. 谷歌爬蟲,cron和笨會議
- 11. 谷歌爬蟲和新聞股票
- 12. 搜索引擎如何通過互聯網找到網站
- 13. 網絡爬蟲
- 14. 掩碼java jsoup網絡爬蟲作爲谷歌機器人下載網頁
- 15. 找不到模塊'爬蟲'
- 16. 無法通過谷歌瀏覽器訪問互聯網
- 17. 通過互聯網
- 18. 通過互聯網
- 19. 通過互聯網
- 20. 通過互聯網
- 21. 關於谷歌爬行PHP頁面
- 22. 如何通過互聯網找到pbmpak.c文件?
- 23. 谷歌網站管理員API - 將爬蟲標記爲固定
- 24. Appengine Apps VS谷歌機器人網絡爬蟲
- 25. 運行一個網站爬蟲
- 26. 是一個網絡爬蟲更合適?
- 27. 我可以告訴網站爬蟲訪問某個頁面嗎?
- 28. 如何使用htaccess檢測谷歌,bing,yahoo爬蟲
- 29. C++網絡爬蟲
- 30. PHP網絡爬蟲
讓我明白這一點:您已閱讀過您分享的鏈接中的信息,並觀看了它提供的所有視頻,但您仍不明白它的工作原理?我認爲我們不能幫助你。另外,這個問題似乎並不是關於程序設計,或者是太廣泛。 – paddy
是的,但沒有關於是否從零開始的規範如何在互聯網上完成對數萬萬文檔的爬行,而且這個問題不是關於編程,所以我不在這篇文章中分配編程語言標記......謝謝.. 。 –
[抓取查找信息]的第二段[抓取和索引](https://www.google.co.in/insidesearch/howsearchworks/crawling-indexing.html)頁面:_抓取過程以網站所有者*提供的過去抓取*和[站點地圖](https://support.google.com/webmasters/answer/156184?hl=en)的網址列表開頭。當我們的抓取工具訪問這些網站時,他們會尋找其他網頁訪問的鏈接... _ – paddy