2013-06-04 65 views
1

我需要從幾個文件中提取原始文本,其中一些是PDF,一些是DOC文件格式。我不得不使用Apache POI來做到這一點。現在,我在處理word文件(提取和寫入等)時發現了很多文檔,但我無法找到任何有關從PDF中提取文檔的文檔。如何使用Apache POI從PDF中提取原始文本?

我錯誤地認爲Apache POI具有此功能嗎?

如果是這樣,任何人都可以推薦類似的Java程序,允許從多種文件格式中提取文本?

如果沒有,任何人都可以指向我應該查看的文檔和/或類/方法嗎?

非常感謝您的幫助。

回答

2

是的,你錯在相信POI會這樣做。 Apache POI適用於Microsoft Office文件格式,其中PDF不是。

您要麼直接使用Apache PDFBox,要麼使用我們的Apache Tika,它們可以同時執行Microsoft Office和PDF文件格式(以及其他許多格式)。

相關問題