2012-04-02 65 views
1

我需要使用Java庫或代碼從ODT文檔的內容中提取字段標籤。我知道odt是某種壓縮文件,它的內容在一個content.xml文件中。當然,我可以提取文件,打開content.xml並解析它,但我相信存在一些更高級別的代碼。舉個例子,內容如下所示:使用Java庫從ODT文檔中提取字段

<text:p text:style-name="Standard">Hi ${name}!</text:p>  
<text:p text:style-name="Standard"> 
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p> 

我想提取字段爲$ {name}和$ nome。

我知道Apache Tika可以用於那個,但我還沒有發現一個實際顯示字段提取的例子。我相信這是因爲我使用的字段是非結構化文本而不是輸入字段標記。

由於提前, 丹尼爾

回答

2

好,以防萬一有人有興趣,我們最後使用Apache提卡獲得從ODT的內容和我們使用下面的正則表達式解析它:

\$\{[\w\-\.]*\}