1
我需要從幾個文件中提取原始文本,其中一些是PDF,一些是DOC文件格式。我不得不使用Apache POI來做到這一點。現在,我在處理word文件(提取和寫入等)時發現了很多文檔,但我無法找到任何有關從PDF中提取文檔的文檔。如何使用Apache POI從PDF中提取原始文本?
我錯誤地認爲Apache POI具有此功能嗎?
如果是這樣,任何人都可以推薦類似的Java程序,允許從多種文件格式中提取文本?
如果沒有,任何人都可以指向我應該查看的文檔和/或類/方法嗎?
非常感謝您的幫助。