2013-09-28 81 views
0

當我們Google的東西時,它會返回文檔。現在我知道的文檔是帶有標籤的html頁面。從我的分析經驗來看,html頁面的結構性可能會有所不同,而且差異很大,有些頁面設計良好,每個div都以結構化的方式進行識別,而其他頁面只是一團糟。有數百萬份Google索引的文檔,它如何提取相關文本,並向我們呈現文本文檔的起始部分?他們是如何做到這一點Google如何解析網頁?

+1

這個問題似乎是題外話題,因爲它是關於SEO –

回答

1

http://www.google.com/intl/en-GB/insidesearch/howsearchworks/crawling-indexing.html

良好的演講由谷歌。我相信他們有一些非常嚴格的解析例程,適用於所有HTML格式的錯誤或其他。谷歌的「HTML解析」將是一個很好的開始。

+0

我實際上用lxml,Beautifulsoup和其他python解決方案做了很多解析。這是他們執行的規模。 – user1343318

+0

它驚人地快速爬網,檢出可憐的人谷歌蜘蛛科技:http://80legs.com/ – OBV