2013-05-16 168 views
-1

有沒有辦法使用Java將XHTML轉換爲純文本?將XHTML轉換爲純文本

任何人都可以請指導我嗎?

+2

你必須寫一些代碼。 – woz

+1

XHTML到純文本到底是什麼意思? XHTML已經是一個純文本文件。嘗試在編輯器(記事本)中打開。 您的意思是刪除所有標籤嗎?請提供更多信息 – Makky

+0

假設我有下面的XHTML,從那我需要提取「標題」和「身體」作爲明文有沒有辦法做到這一點使用Java/Unix腳本。 <!DOCTYPE html PUBLIC「 - // W3C // DTD XHTML 1.0 Transitional // EN」 「http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd」> 名稱的文件 頁源

這是測試頁。

Aravind

回答

0

如果您想要從XHTML結構中提取特殊數據,請嘗試jsoup。它提供了類似jquery的方法來提取和操作XHTML。你可以迭代所有html dom元素並獲取文本屬性。

或者,如果您想刪除html標籤並僅保留文本,請嘗試使用正則表達式。看看這stackoverflow thread