Google如何解析網頁？

當我們Google的東西時，它會返回文檔。現在我知道的文檔是帶有標籤的html頁面。從我的分析經驗來看，html頁面的結構性可能會有所不同，而且差異很大，有些頁面設計良好，每個div都以結構化的方式進行識別，而其他頁面只是一團糟。有數百萬份Google索引的文檔，它如何提取相關文本，並向我們呈現文本文檔的起始部分？他們是如何做到這一點Google如何解析網頁？

來源

2013-09-28 user1343318

這個問題似乎是題外話題，因爲它是關於SEO –

http://www.google.com/intl/en-GB/insidesearch/howsearchworks/crawling-indexing.html

良好的演講由谷歌。我相信他們有一些非常嚴格的解析例程，適用於所有HTML格式的錯誤或其他。谷歌的「HTML解析」將是一個很好的開始。

來源

2013-09-28 17:06:00 OBV

我實際上用lxml，Beautifulsoup和其他python解決方案做了很多解析。這是他們執行的規模。 – user1343318

它驚人地快速爬網，檢出可憐的人谷歌蜘蛛科技：http://80legs.com/ – OBV

Google如何解析網頁？

回答

相關問題