有沒有一種API或系統的方式來剝離網頁的不相關部分,同時通過Python獲取?例如,拿這個頁面 - 唯一重要的部分是問題和答案,而不是側欄欄,標題等。人們可以猜測這樣的事情,但是有沒有什麼聰明的做法?剝離網頁的不相關部分
2
A
回答
3
有來自Readability書籤的辦法,可用至少兩個Python實現:
3
一般來說,沒有。在特定情況下,如果您知道關於您正在抓取的網站的結構的某些信息,則可以使用諸如Beautiful Soup之類的工具來操作DOM。
+0
有一些啓發式方法來識別文檔的重要部分。其中一些使用NLP,一些使用渲染元素的大小,並且我確定這兩種方法和其他風味完全混合。我不知道任何這種算法的名稱,但它們確實存在。 無論哪種方式,+1美麗的湯。絕對是首發的路。 – 2011-05-18 21:30:55
1
一種方法是比較共享多個網頁的結構相同的模板。在這種情況下,你會比較多個SO問題。然後,您可以確定哪些內容是靜態的(無用的)或動態的(有用的)。
此字段已知爲包裝感應。不幸的是它比聽起來更難!
0
這個git hub項目解決了你的問題,但它是用Java編寫的。值得一看:goose
相關問題
- 1. 從外部網頁上剝離信息
- 2. 用.htaccess剝離URL的末尾部分
- 3. 剝離頁眉和頁腳
- 4. 如何從不需要的部分剝離字符串?
- 5. 只獲取網站的相關部分
- 6. 剝離的#define
- 7. WordPress的是從網址剝離參數
- 8. 問題剝離出來側邊欄的部分在WordPress的
- 9. 如何使用的preg_replace(PHP)剝離給定的URL部分
- 10. Magento中的頂部鏈接被剝離
- 11. 如何剝離標籤上下文相關?
- 12. 剝離多餘的文本限定符 - 第2部分
- 13. 使用php剝離目錄路徑的部分
- 14. 剝離\ n不會工作
- 15. 部署後找不到網頁部分
- 16. 剝離中的R
- 17. 如何在頁面底部實現這種「剝離」效果?
- 18. 剝離從CALS
- 19. Joomla剝離#usemap
- 20. XmlNodes剝離HTML
- 21. TinyMCE剝離HTML
- 22. 剝離在Oracle
- 23. 剝離串
- 24. 最後剝離「\」
- 25. 剝離和修剪關鍵字列表?
- 26. 流程和模塊關鍵字剝離
- 27. Route 53從所有網址剝離WWW
- 28. 傳出網址剝離字符
- 29. 分離相同的HTML頁面
- 30. 加載網頁的不同部分
+1以上美麗的湯的衍生品 – karmakaze 2011-05-18 22:32:20