Q
從PDf到字符串
6
A
回答
1
JPedal
和Multivalent
還提供文本提取在Java
或者你可以使用許多新的PDF文件Runtime.exec
2
PDFBox的barfs,尤其是那些帶有嵌入式PNG圖像訪問xpdf
。
我印象非常深刻,PDFTextStream
4
使用的iText。例如下面的代碼片段將提取文本。
PdfTextExtractor parser =new PdfTextExtractor(new PdfReader("C:/Text.pdf")); parser.getTextFromPage(3);
0
好了,我爲了提取PDF原始文本(它是基於PDFBox的)使用提卡,但我認爲只有當你必須從不同的文件格式中提取文本(自動檢測有助於提卡是有用很多)。
如果您只想將pdf解析爲文本,我建議您使用PDFTextStream ,因爲它比其他apis(如iText和PDFBox)更好解析器。
使用PDFTextStream,您可以輕鬆獲取結構化文本(pages-> blocks-> lines-> textUnits),並且可以提取相關信息,如字符編碼,高度,頁面中某個字符的位置等..
例子:
public class ExtractTextAllPages {
public static void main (String[] args) throws IOException {
String pdfFilePath = args[0];
PDFTextStream pdfts = new PDFTextStream(pdfFilePath);
StringBuilder text = new StringBuilder(1024);
pdfts.pipe(new OutputTarget(text));
pdfts.close();
System.out.printf("The text extracted from %s is:", pdfFilePath);
System.out.println(text);
}
}
相關問題
- 1. 反覆 - 獲取發票PDF(pdf從pdf字符串)
- 2. 將PDF頁面下載到字符串
- 3. asp.NET - 保存HTML字符串到PDF
- 4. 將字符串從字符串複製到字符串
- 5. 從字符串到數字
- 6. 從一個奇怪的字符串保存到PDF
- 7. itextSharp datatable到pdf base64字符串 - pdf損壞
- 8. 讓字符串流從字符A讀到字符串B
- 9. JAVA:從字符串中讀取字符串到某個字符
- 10. 從字符串1替換字符到字符串2
- 11. 字符串到字符串
- 12. 從零到字符串
- 13. 找到並從字符串
- 14. 從字符串到Blob
- 15. 從字符串到XML
- 16. 從Json字符串到XContentBuilder
- 17. 從字符串到字符串流到矢量<int>
- 18. 從字符串到Clob和Clob到字符串的轉換
- 19. 從字符串到正則表達式到新字符串
- 20. 字符串到DOM到字符串
- 21. 從向量C++中找到字符串中的字符串/字符串
- 22. 從套接字讀取到字符串
- 23. 從Hexidimal文字讀取到字符串
- 24. Java字節[]到/從字符串轉換
- 25. 字節從網絡到字符串
- 26. 從字符串
- 27. 從字符串
- 28. 從字符串
- 29. 從字符串
- 30. 從字符串
什麼PDFBOX沒有工作?您是否正在尋找替代方案或解決您現有的問題? – Catchwa 2009-11-05 05:11:19
嗯,我不喜歡API的設計,我已經快速瀏覽了iText,我認爲這是一個更好的選擇。 API似乎更符合我的需求。 – Ankur 2009-11-05 06:24:34