2016-06-07 79 views
-1

今天我有一個問題,如果谷歌爬蟲如何在爬行過程中通過互聯網找到每一頁,請分享我的答案,如果你有。谷歌爬蟲如何通過互聯網找到每一個頁面

查看下面的鏈接,如果你需要更多的話。

HOW SEARCH WORKS

在此先感謝!!!!

+0

讓我明白這一點:您已閱讀過您分享的鏈接中的信息,並觀看了它提供的所有視頻,但您仍不明白它的工作原理?我認爲我們不能幫助你。另外,這個問題似乎並不是關於程序設計,或者是太廣泛。 – paddy

+0

是的,但沒有關於是否從零開始的規範如何在互聯網上完成對數萬萬文檔的爬行,而且這個問題不是關於編程,所以我不在這篇文章中分配編程語言標記......謝謝.. 。 –

+0

[抓取查找信息]的第二段[抓取和索引](https://www.google.co.in/insidesearch/howsearchworks/crawling-indexing.html)頁面:_抓取過程以網站所有者*提供的過去抓取*和[站點地圖](https://support.google.com/webmasters/answer/156184?hl=en)的網址列表開頭。當我們的抓取工具訪問這些網站時,他們會尋找其他網頁訪問的鏈接... _ – paddy

回答

0

碰巧是存儲緩存數據的過程,在緩存數據中,搜索引擎查找超鏈接,可能是文本或圖像超鏈接。然後,它找到一個後,打開該頁面緩存並開始尋找鏈接。這個過程繼續下去,直到找不到更多的鏈接。

因此,在這個超鏈接的長鏈中,幾乎可以肯定的是,大部分互聯網都包含在內。但是,這並不意味着它已經抓取了一切。 由於缺乏鏈接,許多新網站都被排除在外。 以及一些網站不會被抓取,因爲它們不打算被發現。

+0

謝謝@Shashikant_這個過程是從一個特定頁面開始的,它抓取了大部分互聯網頁面? ? –

+0

是的。但是,也有系統可以手動請求爬網或優先考慮爬網,如果您有新網站,則需要手動提交頁面以加快爬網過程,或者搜索引擎可能需要幾天時間才能到達您的網頁網站。 –

+0

感謝您的答案夥伴,這意味着抓取數據庫的大小會隨着時間的推移而增加,並在獲得更好的抓取後得到更好的結果... –