我必須從新聞鏈接中提取發佈時間和文章內容。如何從使用java的新聞文章中提取發佈時間和文章內容?
例如:從這個鏈接 http://techcrunch.com/2013/03/19/jawbone-android/
我不得不提取物發佈時間和文章內容
發表時間:昨天發佈
文章內容: 頜骨今天宣佈,其應用對於公司的運動跟蹤腕帶UP,現在可在Google Play上免費下載Android版本。之前的129美元UP僅與iOS兼容。腕帶現在也可以購買......
我必須從新聞鏈接中提取發佈時間和文章內容。如何從使用java的新聞文章中提取發佈時間和文章內容?
例如:從這個鏈接 http://techcrunch.com/2013/03/19/jawbone-android/
我不得不提取物發佈時間和文章內容
發表時間:昨天發佈
文章內容: 頜骨今天宣佈,其應用對於公司的運動跟蹤腕帶UP,現在可在Google Play上免費下載Android版本。之前的129美元UP僅與iOS兼容。腕帶現在也可以購買......
我認爲你可以使用jsoup
jsoup是一個Java庫與現實世界的HTML工作。它提供了一個非常方便的API來提取和操作數據,使用最好的DOM,CSS和類似jquery的方法。
謝謝CBroe ....我認爲jsoup不適合我的要求,b'coz我不知道標籤名稱或發佈時間b'coz的位置標籤因站點而異。 – 2013-03-20 11:43:02
對於文章文本提取您可以使用BoilerPipe
ArticleExtractor extractor = ArticleExtractor.INSTANCE
String articleText = extractor.getText(yourHTML);
請不要轉貼的問題。 – BoltClock 2013-03-21 11:06:08
我沒有得到解決方案,有人建議我jsoup,但它不適合我的要求。 – 2013-03-21 11:16:03
@BoltClock原始問題已被刪除,因爲它是重複的,所以此問題已關閉。原始問題被刪除的原因是否有特殊原因? – mmx73 2016-01-27 11:24:55