2010-11-22 66 views
0

我正在研究一個我們想要分析網頁內容的學校項目。然而,我們並不想處理導航條和評論等內容。如果我們在查看特定的網站,我們可以創建一個解析器來過濾那些專門針對該網站的無關內容,但我們希望能夠在我們以前可能沒有遇到的任意網站上工作。有沒有任何工具來隔離網頁的內容?

我覺得希望有點多,所以如果沒有這樣的東西存在,我不會感到驚訝,但是有誰知道可以在任意網站上做這種內容隔離的工具嗎?我與同一網站上的其他人有過一些不同的運氣,但它不完美,留下評論等。

我正在使用Java,但會歡迎任何可用於創意的語言的任何開源代碼。

回答

2

你可以試試arc90的可讀性的unofficial API

基本上,Readability所做的是提取網頁上的內容並將其作爲格式良好的文章呈現給您。導航欄,評論以及圍繞網頁內容的所有其他內容都消失了。

+0

這看起來非常酷!我必須仔細研究它。 – Matt 2010-11-22 11:32:54

0

我懷疑任何可以做你想做的事情。如果沒有某種語義標記,幾乎不可能將「真實」內容與其他內容區分開來。這是一項需要真實情報的任務。

當然,有很好的工具可以解析不同程度的正確性的HTML,並且通常可以拼湊一些基於模式的解決方案來處理特定站點上的頁面...假設存在常見的結構/模式被引出。

3

我對這個有點遲了(特別是對於一個學校項目),但是如果有人在未來某個時候發現了這一點,以下可能會有所幫助。

我偶然發現了一個Java庫來做到這一點。在我的簡單測試中,性能類似於可讀性。

http://code.google.com/p/boilerpipe/

1

IM也有點晚了這次談話,但...

了Java Boilerpipe提取可能是你想要什麼(ArticleSentencesExtractor可能),雖然是arc90可讀性的至少1個端口到github上的java。

如果你想建立一個窮男人的boilerpipe你可以嘗試從同一網站diff'ing 2頁(假設他們使用的是相同的模板,你可能會得到一個有趣的結果)

boilerpipe之間的主要區別,可讀性和基於差異的黑客攻擊是,鍋爐將去除所有的HTML,但保留一些結構

相關問題