是否可以使用PDFBox獲取單詞的位置,類似於「processTextPosition」? 似乎只對單個字符調用processTextPosition,將它們合併爲單詞的代碼是PDFTextStripper(在「normalize」)方法中的一部分,該方法返回文本的位置。 有沒有提取位置的方法/實用程序? (對於那些想知道動機是什麼 - 信息實際上是一個表,我們想檢測空白單元格) 感謝PDFBox - 獲取單詞的位置(不僅是字符')
6
A
回答
1
將文字和自己的x和y位置在從PDF文件中提取文本你將具有擴展PdfTextStripper類,並使用自定義類從pdf文件例如
public class CustomPDFTextStripper extends PDFTextStripper{
public CustomPDFTextStripper() throws IOException {
}
/**
* Override the default functionality of PDFTextStripper.
*/
@Override
protected void writeString(String text, List<TextPosition> textPositions) throws IOException{
TextPosition firstProsition = textPositions.get(0);
writeString(String.format("[%s , %s , %s]", firstProsition.getTextPos().getXPosition(),
firstProsition.getTextPos().getYPosition(), text));
}
}
提取文本創建此自定義類的一個對象,並提取文本作爲從而
PDFTextStripper pdfStripper = new CustomPDFTextStripper();
String text = pdfStripper.getText(*pdf file wrapped as a PDDocument object*);
結果文本字符串的格式是[xposition,yposition,word],用默認的分隔符分隔
+0
對於PdfBox .net不起作用 –
相關問題
- 1. pdfbox PDFBox 2.0.0獲取字段位置
- 2. 查找字符串中的單詞位置(不是字符位置)
- 3. 在字符串中圍繞某個位置獲取單詞
- 4. 用空間獲取單詞的位置
- 5. 獲取特定單詞的位置
- 6. php:根據字符串中字符的位置獲取單詞座標(句號num,單詞num)
- 7. 如何僅使用python獲取字符串中的單詞
- 8. 如何使用pdfbox獲取字段的位置?
- 9. 獲取字符位置
- 10. 如何獲取字符串的單詞?
- 11. 查找字符串中不同單詞的位置不重疊
- 12. 獲取單詞而不是子字符串
- 13. 獲取Ruby字符串中特定單詞後的單詞嗎?
- 14. 如何獲取單詞(字符串)?
- 15. 從字符串獲取單詞 - PHP
- 16. FSEEK獲取最後一個字符而不是想要的字符的位置
- 17. 如何獲取單詞的有序自動完成列表,而不僅僅是單詞?
- 18. 獲取每個單詞的第一個字符的字符串
- 19. 如何獲取XmlElement的字符位置?
- 20. 在單詞中移位字母位置
- 21. 本地化您的單詞在Java中的位置由單詞而不是字符
- 22. 通過ReGex從字符串獲取不同的單詞
- 23. 查找字符串的所有位置中的NSString(不僅僅是第一個)
- 24. 如何使用PDFbox獲取Radiobutton的位置
- 25. JAVA-如何將字符設置爲字符串中單詞的特定位置?
- 26. 獲取PDFBox中字符的字體高度
- 27. 獲取圍繞當前光標位置的單詞的樣式
- 28. 在TLF中獲取字符位置
- 29. 從字符串獲取int位置PHP
- 30. 獲取索引位置從字符串
也許這會有所幫助:http://stackoverflow.com/questions/3203790/parsing-pdf-files-especially-with -tables-with-pdfbox/12545981#12545981 – impeto
感謝您的建議。最終,我們的解決方案是更改writePage,以保留單詞與他們的位置(如您所發送的URL中所述)。然而,在我們的例子中,列的數量(和它們的位置)是未知的,我們需要根據信息的組織來找到它(例如 - 如果有很多行的單詞在位置Y開始= 100,那裏可能有一個表格列)。有沒有可以檢測到這種結構的組件?如果是這樣的話 - 當「Y」不是常量時,它是否也可以處理稍微旋轉的頁面? – user964797
一種可能的方式是通過向PDFTextStripper類的processTextPosition()添加重寫並檢查單詞分隔符來追蹤字符。在單詞start上保留一個標記,並在單詞末尾保留一個標記,並在遇到分隔符。 – programer8