2011-05-18 61 views
2

有沒有一種API或系統的方式來剝離網頁的不相關部分,同時通過Python獲取?例如,拿這個頁面 - 唯一重要的部分是問題和答案,而不是側欄欄,標題等。人們可以猜測這樣的事情,但是有沒有什麼聰明的做法?剝離網頁的不相關部分

回答

3

一般來說,沒有。在特定情況下,如果您知道關於您正在抓取的網站的結構的某些信息,則可以使用諸如Beautiful Soup之類的工具來操作DOM。

+0

有一些啓發式方法來識別文檔的重要部分。其中一些使用NLP,一些使用渲染元素的大小,並且我確定這兩種方法和其他風味完全混合。我不知道任何這種算法的名稱,但它們確實存在。 無論哪種方式,+1美麗的湯。絕對是首發的路。 – 2011-05-18 21:30:55

1

一種方法是比較共享多個網頁的結構相同的模板。在這種情況下,你會比較多個SO問題。然後,您可以確定哪些內容是靜態的(無用的)或動態的(有用的)。

此字段已知爲包裝感應。不幸的是它比聽起來更難!

0

這個git hub項目解決了你的問題,但它是用Java編寫的。值得一看:goose