2013-03-20 46 views
1

我必須從新聞鏈接中提取發佈時間和文章內容。如何從使用java的新聞文章中提取發佈時間和文章內容?

例如:從這個鏈接 http://techcrunch.com/2013/03/19/jawbone-android/

我不得不提取物發佈時間和文章內容

發表時間:昨天發佈

文章內容: 頜骨今天宣佈,其應用對於公司的運動跟蹤腕帶UP,現在可在Google Play上免費下載Android版本。之前的129美元UP僅與iOS兼容。腕帶現在也可以購買......

+0

請不要轉貼的問題。 – BoltClock 2013-03-21 11:06:08

+0

我沒有得到解決方案,有人建議我jsoup,但它不適合我的要求。 – 2013-03-21 11:16:03

+0

@BoltClock原始問題已被刪除,因爲它是重複的,所以此問題已關閉。原始問題被刪除的原因是否有特殊原因? – mmx73 2016-01-27 11:24:55

回答

2

我認爲你可以使用jsoup

http://jsoup.org/

jsoup是一個Java庫與現實世界的HTML工作。它提供了一個非常方便的API來提取和操作數據,使用最好的DOM,CSS和類似jquery的方法。

+0

謝謝CBroe ....我認爲jsoup不適合我的要求,b'coz我不知道標籤名稱或發佈時間b'coz的位置標籤因站點而異。 – 2013-03-20 11:43:02

0

對於文章文本提取您可以使用BoilerPipe

ArticleExtractor extractor = ArticleExtractor.INSTANCE 
String articleText = extractor.getText(yourHTML);