我目前正在尋找方法來閱讀網站的可見文本並將其存儲到使用Java的純文本字符串中。Html 2文本 - 刪除「隱藏」文本
換句話說,我想的東西轉換是這樣的:
Hello <span style="display: none">stupid</span> World
爲 「Hello World」 的
或類似
<span>Un</span>friendly
爲 「不友好」(而不是像「聯合國友好「)
或
Hello
World
插入到「Hello World」中(因爲HTML中忽略了新行)
你知道任何可以協助完成此任務的lib嗎?
乾杯,
馬蒂亞斯
你試過正則表達式嗎? ;) – 2011-03-09 13:26:24
你需要的是某種HTML渲染器。 – adarshr 2011-03-09 13:28:14