2012-09-21 81 views
0

我想從網頁中提取句子(不僅僅是一個HTML剝離的文本)。我想知道這種功能是否受到流行的HTML解析庫如Jsoup的支持?如何從網頁中提取句子

感謝,

編輯

很抱歉,如果崗位不明確。我需要自然語言句子,因此不一定要用點分隔。

謝謝大家。我剛剛發現這個庫http://alias-i.com/lingpipe/demos/tutorial/sentences/read-me.html,它看起來正是我想要的。

+0

更精確。給出一個HTML內容的例子,並告訴我們你想要提取什麼。 – sp00m

+0

你是否在談論「自然語言處理」或者是一個句子的任何單詞列表單獨點? – PeterMmm

+0

看看[diffbot.com](http://www.diffbot.com),他們在雲中做它 – yegor256

回答

0

JSoup確實提供了非常方便的API提取操縱data,總之......是的,它確實提供了這一功能...

-1

您可以使用jQuery爲

var t = $('p').text();
var sentences = t.split('.');

+0

可能會簡單..這取決於您的確切需求。 – Max