2011-03-09 64 views
2

我目前正在尋找方法來閱讀網站的可見文本並將其存儲到使用Java的純文本字符串中。Html 2文本 - 刪除「隱藏」文本

換句話說,我想的東西轉換是這樣的:

Hello <span style="display: none">stupid</span> World爲 「Hello World」 的

或類似

<span>Un</span>friendly爲 「不友好」(而不是像「聯合國友好「)

Hello 

World 

插入到「Hello World」中(因爲HTML中忽略了新行)

你知道任何可以協助完成此任務的lib嗎?

乾杯,

馬蒂亞斯

+0

你試過正則表達式嗎? ;) – 2011-03-09 13:26:24

+0

你需要的是某種HTML渲染器。 – adarshr 2011-03-09 13:28:14

回答

0

查看Cobra以查看API是否提供了任何方法來呈現HTML並將其轉換爲純文本。