我是一名中學生學習計算機編程,我只是對Google和雅虎等搜索引擎有一些疑問。搜索引擎組件
據我所知,這些搜索引擎包括:
搜索算法&代碼 (例如:search.py文件接受來自Web界面的搜索查詢並返回搜索結果)
Web界面的用於查詢和表示結果
- 網絡爬蟲
我感到困惑的是Web爬蟲部分。
谷歌和雅虎的網絡爬蟲是否立即搜索WWW上存在的每個網頁?或者他們: 首先下載WWW上的所有現有網頁,將它們保存在其巨大的服務器上,然後搜索這些保存的頁面?
如果後者是這樣的話,那麼谷歌搜索結果上顯示的搜索結果就不會過時,因爲我猜想通過WWW上的所有網頁搜索將花費大量的時間?
PS。還有一個問題:其實......一個網絡爬蟲如何檢索WWW上存在的所有網頁?例如,它是否搜索所有可能的網址,如www.a.com,www.b.com,www.c.com等...? (雖然我知道這不可能是真的)
或者有什麼方法可以訪問所有在萬維網上的現有網頁? (對不起,問這樣一個愚蠢的問題..)
謝謝!
你的意思是,每次有人搜索任何東西在Google上,它是否實時搜索每個現有網頁上的術語?簡單地說,不。 (僅在Google上,每天就有超過十億次搜索,搜索數十億個網站,沒有硬件可以提出這麼多請求,也沒有網站可以處理這種負載,而且肯定無法將結果返回給如果它不得不等待網站每次返回它們的內容,則需要一秒的時間。) – JJJ