2013-06-28 24 views
0

我的目標是從不同提問者doc文件製作xml文件。如何使用java將提問者文檔轉換爲xml格式

例如。

Interviewer Name: Mr. K </br> 
Street: BD 
Company: ABC 

Mr. K: What is your Name? What is your father name? 
Mr. R: My name is R. 
      My father name is Z. 
Mr. K: What is your hobby? 
Mr. R: I like to play football. 
     ...................... 

等等。

現在,我想解析它從DOC文件並轉換爲XML文件。 xml文件看起來像下面

<interview> 
    <information> 
     <p>Interviewer Name: Mr. K</p> 
     <p>Street: BD </p> 
     <p>Company: ABC</p> 
    </information> 
    <question><p>What is your Name? What is your father name?</p></question> 
    <answer> 
<p>My name is R.</p> 
<p>My father name is Z. </p> 
</answer> 
<question><p>What is your hobby?</p></question> 
<answer> 
    <p>I like to play football.</p> 
    <p>.......</p> 
</answer> 

</interview> 

這裏代碼

我用POI API來讀取doc文件和DOM API來創建XML。但我的主要問題是我可以通過它來確定問題,答案和信息塊的算法。 你能告訴我一些關於這個的想法嗎?

回答

2

我曾經爲JaxB使用過這類問題。您創建一個與您的XML等價的Java類。然後JaxB將該類的一個實例轉換爲XML,反之亦然。

看看這個:

http://www.mkyong.com/java/jaxb-hello-world-example/

+0

JAXB是Java類轉換成XML一個很好的解決方案。但是這需要解析你的文檔來獲取你的java類的內容。解析過程是一個更耗時的話題。應用JaxB非常簡單。 –

+0

是的,轉換爲XML和閱讀文檔不是一個問題。問題是如何自動檢測文檔中的問題和答案。問題不僅在於「?」標記。它可以用聲明的形式陳述,如「我在想你是否在上午8點有空」。在這種情況下,我面臨着困難。 – Khaled

+0

如果使用JaxB(使用您創建的自定義類)將其轉換爲Java對象,那麼您可以使用「getter」方法來獲取「問題」標記的內容。 –