2012-10-23 36 views
0

我試圖將單個HTML代碼轉換爲* .odt格式(Open Office)正在使用的XML格式。例如,<p>This is some text</p>應翻譯爲<text:p>This is some text</text:p>。當然,這也應該與列表等HTML到ODT - XSLT?

我不確定是否最好的方式去使用XSLT處理器(如果是這樣,哪一個用於Java?)並自己創建樣式表 - isn那裏有一個Java庫可以做到這一點嗎? 我使用jodconverter從ODT-> PDF,但即使OpenOffice Writer可以處理複製&粘貼內容並以期望的方式顯示,但jodconvert似乎無法「翻譯」單個HTML片段(或者我錯了嗎?)。

任何意見和建議將是非常受歡迎的。我應該補充一點,我對Java絕對陌生。在此先感謝 Ingo

+0

HTML or XHTML? XSLT僅適用於XML,HTML不適用於XML。 – Joe

+0

謝謝。我實際上是在討論HTML,但即使HTML本身不是XML,也應該可以「整理」它使其起作用(如Askolein的帖子的鏈接所述)。 –

+0

是的,在某些情況下,可以將HTML整理爲XML。但並不總是如果HTML格式不正確。 – Joe

回答

1

XSLT是執行此操作的最佳方法。 OpenDocument組正在處理HTML到ODT xsl模板。可悲的是,它還沒有準備好。

您可以檢查on their website保持聯繫(也許可以進行測試工作)。

否則,您必須是非正式項目,也是基於XSLT:like this one 這將是很容易適用於你的HTML稍加改造就處理ODT之前得到一個有效的XHTML。

或者只是檢查this other example.

+0

謝謝,這是很棒的信息。我之前實際上偶然發現了xhtml2odt.org,但不知何故再次忘記了它。如果其他人也接受這個答案,我會等待。 –

+0

聽起來很合理:-) – Askolein

+0

看起來好像沒有別的東西可來了。爲了完整起見,我還會嘗試使用jodconverter將HTML轉換爲ODT文件,然後提取必要的部分。我們懷疑OpenOffice可能在內部使用了一個解析器,因爲它能夠處理複製粘貼的HTML。感謝您的輸入! –