使用itextsharp我需要從c#應用程序中提取PDF文本。當我試圖提取一些pdf文件時,有些詞會散亂並重復出現(例如,堆棧溢出 - 即流式傳輸流程)。有人可以建議如何使這個完美或建議我糾正這一點。我已附上上述案例的示例圖片。 c#pdf itextsharp文本分散和重複,同時提取
-1
A
回答
2
我可以幫你猜測,造成這一文本是大膽在PDF文件?在PostScript和PDF中使文本看起來粗體的一種並不少見的方式(一種非常糟糕的方式,但是......)是通過對文本位置進行非常輕微的翻譯(移位)來渲染相同的字符兩次。
如果這確實是造成這種情況的原因,那麼您唯一的解決方法就是計算每個角色的位置並丟棄那些相同並且非常接近的角色。
+0
一個窮人的大膽也是我的猜測。 @ShankarManickavasagam請提供一個樣本PDF來檢查。如果是這種情況,則可以適當擴展該策略以識別它的一些常見模式 – mkl
相關問題
- 1. iTextSharp的PDF文本提取
- 2. 從PDF文檔中提取文本 - C#
- 3. 如何使用帶空格的itextsharp從pdf中提取文本?
- 4. 如何使用iTextSharp從PDF中提取高亮文本?
- 5. 提取PDF文本
- 6. pdf文本提取
- 7. iTextSharp的PDFParser提取文本到文本框
- 8. itextsharp PDF到文本轉儲
- 9. 從pdf中提取文本到c#
- 10. 用Poppler(C++)從PDF中提取文本
- 11. 目標C中提取pdf文本
- 12. 如何在使用iTextSharp提取文本時跳過PDF的空白頁面?
- 13. itextsharp irenderlistener接口同時獲取圖像和文本
- 14. 使用iTextSharp和C格式化pdf上的文本控件#
- 15. iTextSharp的和pdf
- 16. 分析pdf文件的格式並提取文本和圖像
- 17. 從PDF中裁剪和提取文本
- 18. Python 3 PDF文本提取
- 19. Solr ExtractingRequestHandler pdf文本提取
- 20. 如何使用iTextSharp從PDF中提取'標記爲新版本'的文本?
- 21. 使用itextsharp在c#中提取阿拉伯語文本
- 22. ItextSharp讀取文本框文本
- 23. ItextSharp和複選框
- 24. ItextSharp MVC5 C# - 現有PDF文件前面的文本
- 25. itextsharp插入pdf文件中的文本與C#
- 26. 如何從pdf文件中提取文本和文本座標?
- 27. 使用IText或ITextSharp或BouncyCastle從pdf文件中提取pkcs7(byte [])
- 28. 使用itextsharp提取ftp服務器上的pdf文件
- 29. 提取PDF部分
- 30. iTextSharp無法讀取一些PDF文件
請不要透露關於任何個人信息在stackoverflow! – MMK