2013-02-25 39 views
2

我正在尋找一個用戶可以轉換任何類型的文件(pdf,doc,docx,xl​​s,xlsx,csv,rtf,txt)的Java實用程序。我們有要求用戶可以上傳任何類型的文件,我們需要讀取文件的內容(僅文本),將其轉換並存儲在一個對象中。這可以使用Apachi poi完成,但我想知道是否有任何Java實用程序存在?Java實用程序將任何文件的內容轉換爲文本文件。

+0

什麼是您的編程問題?這種效用要麼非常容易出錯(不夠具體),要麼非常難以開發(考慮到許多具體情況),因此也是專有的(例如用於搜索引擎)。 – ipavlic 2013-02-25 16:12:16

+0

對於解析PDF,您可以使用PDFBox:http://pdfbox.apache.org/ – 2013-02-25 16:13:22

+0

Christophe,由於javier給出了apache tikka及其使用內部PDFBox的鏈接。它不僅關於pdf,我還需要解析其他格式。 – 2013-02-26 06:35:04

回答

4

您可能感興趣的Apache Tika,其中包括Apache POI和PDFBox的功能。從項目描述中,工具包:「使用現有解析器庫從各種文檔檢測並提取元數據和結構化文本內容。」

+0

感謝Javier,Apache Tika看起來不錯,滿足了我的要求。 – 2013-02-26 06:29:08

0

我想你不能對每種類型的文件都具有某種通用功能。您將需要爲每種文件類型實現轉換方法。 This link有助於PDF文件,並且還會爲您提供一個模板來處理您的其他文件類型。

+0

感謝克里斯的評論,但我個人從不建議任何人使用roseindia.net。相信我這是學習一些最糟糕的網站。 – 2013-02-26 06:32:48

相關問題