2011-06-22 53 views
0

是否有single Java文本解析器可以用來解析Office(windows)文檔,OpenOffice文檔和PDF嗎?否則,我是否需要使用Apache POI for Word文檔和其他OpenOffice和PDF庫?如果是的話,OpenOffice和PDFs的最佳選擇是什麼?開源的Java文本解析器

回答

2

Apache Tika

阿帕奇提卡™工具包檢測和 提取元數據和結構化文本使用 現有的解析器庫的各種文件 內容。

不確定這是否符合您的目的「單一」。

+0

提取元數據是什麼意思?這與從文檔中提取文本主體相同嗎?除此之外,這看起來很好。 – Izza

+0

+1。我用它。這似乎很適合做這項工作。稍有不足​​的是,因爲它使用了很多現有的庫,所以需要一堆罐子。 – Izza

2

如果任務正在閱讀PDF文檔,iText是您最好的選擇。 對於基於Microsoft Office和OpenOffice(LibreOffice)的文檔,POI將是我的解決方案。

+0

但iText不是免費的嗎? – Izza

+0

它的免費條款,你應該釋放使用itex api的應用程序的來源。從網站上跳過...... 「只要您開發涉及iText軟件的商業活動,就不用公開您的應用程序的源代碼,就必須購買此類許可證。」 http://itextpdf.com/terms-of -use/index.php –

+2

POI無法讀取基於OpenOffice(LibreOffice)的文檔AFAIK。 PDF Box是可以閱讀PDF文檔的Apache替代方案。 – JasonPlutext