爲了提供webcrawler如何工作的技術方法,我會建議您深入研究nutch.apache.org解決方案。
一個典型的web爬行器顯示以下區域,fetcher,解析器,索引器和搜索器。簡單地說,網絡爬蟲可以獲取網站上可用的所有網址,並創建網頁,每個網頁的存儲量高達101kb。這些頁面被解析,但是典型的單詞(如and-or-the)沒有被存儲,而是使用貝葉斯計算來分析其他單詞以獲得排名。
搜索引擎索引收集,分析和存儲數據,以促進快速和準確的信息檢索。這些任務主要通過存儲每個搜索標準的出現列表來執行,通常以使用倒排索引的散列表或二叉樹的形式。
正如馬克所言,谷歌的計算主要是商業祕密,但谷歌發佈的專利可能是一個好的開始。 Pagerank http://en.wikipedia.org/wiki/PageRank主要分析反向鏈接以及指向您網站的網站對人們偏好的重要性。根據我的經驗,重要的是提供一個XML網站地圖,說明您網站上的所有網頁。在該站點地圖上,您可以爲每個頁面定義抓取頻率。 gsitecrawler.com/是一個有趣的可能性。
谷歌網站優化工具將讓你有機會看到谷歌在你的網站上發現什麼,日誌是好的,但可能機器人發現問題和最好的方式來知道,與谷歌的網站優化器,以顯示錯誤。
最後,大部分您關注的事項都是SEO的專家所爲,我建議您檢查seomoz.com和他們的工具等網站......您將學習如何更好地在搜索引擎上定位您的網站。
希望它有幫助!,塞巴斯蒂安。
+1,儘管Page和Brin非常好,可以在Stanford頁面上提供論文「搜索引擎的解析」。我想這是您從Google獲得的最好結果。 http://infolab.stanford.edu/~backrub/google.html – 2010-08-16 13:06:29
我一直在閱讀這個博客,這確實很有趣。 – 2010-08-19 15:21:58