2013-12-22 113 views
0

我目前正在構建一個RSS閱讀器和一些網站有奇怪的rss-2.0-文件,我必須先修改以顯示它們。從字符串中刪除HTML - RSS

其中之一是seen here:

的問題是,描述標籤不僅包含的說明文字也像<a href ... /><img src ... />

一些

HTML元素如何刪除所有這些不必查看每一個屬性的不必要的信息?

Java中是否有可用的東西?或者是在這種情況下有用的正則表達式?

+0

忽略所有CDATA內<內容:編碼><![CDATA [... – mplungjan

+1

好,這很簡單!d - 如果你創建一個迴應,我會標記爲已解決;) – Frame91

+0

完成:) ........... – mplungjan

回答

2

忽略所有內部CDATA如

<content:encoded><![CDATA[... 
4

您可以使用此正則表達式刪除HTML標籤:

String noHtml = html.replaceAll("\\<.*?>",""); 

即使這樣,我會使用jsoup在Java解析HTML代碼。

+0

第一個「\\」是什麼?就我所知,「<>」並不特別 – HamZa