當我們Google的東西時,它會返回文檔。現在我知道的文檔是帶有標籤的html頁面。從我的分析經驗來看,html頁面的結構性可能會有所不同,而且差異很大,有些頁面設計良好,每個div都以結構化的方式進行識別,而其他頁面只是一團糟。有數百萬份Google索引的文檔,它如何提取相關文本,並向我們呈現文本文檔的起始部分?他們是如何做到這一點Google如何解析網頁?
0
A
回答
1
http://www.google.com/intl/en-GB/insidesearch/howsearchworks/crawling-indexing.html
良好的演講由谷歌。我相信他們有一些非常嚴格的解析例程,適用於所有HTML格式的錯誤或其他。谷歌的「HTML解析」將是一個很好的開始。
+0
我實際上用lxml,Beautifulsoup和其他python解決方案做了很多解析。這是他們執行的規模。 – user1343318
+0
它驚人地快速爬網,檢出可憐的人谷歌蜘蛛科技:http://80legs.com/ – OBV
相關問題
- 1. 如何解析網頁
- 2. 解析網頁
- 3. Google Analytics網頁分析如何運作?
- 4. 如何解析C++中的XML網頁
- 5. 如何使用PHP解析網頁?
- 6. 如何在內存解析網頁
- 7. 如何解析網頁的內容?
- 8. 如何解析批處理網頁?
- 9. 如何解析xml網頁perl
- 10. 如何解析網頁中的JavaScript?
- 11. 如何解析包含Javascript的網頁?
- 12. Google Reader如何解析RSS?
- 13. 從網頁解析HTML
- 14. 從網頁解析XML
- 15. 使用BeautifulSoup4解析網頁
- 16. 解析網頁中的sre.findall()
- 17. BeautifulSoup無法解析網頁?
- 18. 使用php解析網頁
- 19. Jsoup解析一個網頁
- 20. 關於網頁解析
- 21. 解析HTML(網頁)JavaSE
- 22. 解析一個網頁
- 23. 解析網頁索引
- 24. HTML解析器網頁
- 25. 解析JSON供稿網頁
- 26. 從php解析網頁
- 27. 解析網頁使用PowerShell
- 28. 網頁解析無硒
- 29. 如何解析網站?
- 30. 如何從此頁面解析全文網頁?
這個問題似乎是題外話題,因爲它是關於SEO –