是否有從PDF文檔中提取文本,使用ITextSharp庫並保留格式的選項,例如:新的行和製表符。提取文本和保留格式
0
A
回答
0
事實證明格式「\r\n
」確實通過以編程方式從SQL Server表中獲取值並調用Console.writeline()
來保證驗證。起初,我是直接從SQL Server Management Studio複製這些值並粘貼到文本文件中 - 這肯定不是驗證的正確方法。
2
提取文本時,製表符會出來,假設它們實際上是製表符。如果不手動記錄當前的文本座標,我不相信可以確定換行符。
您
可能能夠計算
BT
和
ET
之間的
Td
標記的數量並減去1,但這只是一個猜測。
編輯
令牌上的事沒關係,我認爲這是僅用於線調整(新行),但我錯了。
1
我建議你根據LocationTextExtractionStrategy
編寫自己的TextExtractionStrategy
。
您需要跟蹤基線確定換行符的位置。
實際上,LocationTextExtractionStrategy可能會爲您添加換行符。無論哪種方式,這就是你需要開始的地方。
相關問題
- 1. 使用letterings.js保留文本的格式
- 2. 讀取文本文件並保留格式
- 3. 保留PDFBox文本提取中的「long」空格
- 4. 提取文本的格式
- 5. 結合保留分隔符和格式的文本文件
- 6. 在讀取和重寫時保留文本(.txt)文件的格式
- 7. 讀取文件,同時保留格式和類型
- 8. JavaScript注入預防(但保留文本格式和圖像)
- 9. 文本框中的文本不保留其格式
- 10. 如何從richTextbox中讀取文本並保留文本的格式?
- 11. 當從R中的列表中提取時保留格式
- 12. jquery。獲取文本()以保留空格/空格
- 13. 保留文本
- 14. 以字母形式顯示文本但保留html格式
- 15. 在php中保存格式的提取文本
- 16. 如何保留textarea表單文章中的空格和格式?
- 17. 保留空格和格式爲$ .get返回的文本jquery調用
- 18. AngleSharp提取格式化文本
- 19. 提取特定格式的文本-perl
- 20. 分析pdf文件的格式並提取文本和圖像
- 21. Zend表格文本值保留爲空
- 22. PHP形式 - 保留文本框的值上提交
- 23. 如何在itextsharp文本提取中保留水平空間
- 24. PHP heredoc不保留格式
- 25. PHP sendmail()格式不保留
- 26. 保留在Configuration.Save格式化()
- 27. setValue()後不保留格式
- 28. 以PHP格式提交表格之後保留複選框值
- 29. PHPExcel - 在導入時保留豐富的文本格式
- 30. 保留通過vba輸入數據的文本格式
謝謝克里斯。考慮我有一個叫做緩衝區的StringBuilder對象,我調用buffer.AppendLine(strategy.GetResultantText());它獲取沒有格式化的文本/元數據,如段落等。另一方面如果我聲明StreamWriter對象, invoke writer.WriteLine(strategy.GetResultantText()); ,轉換成文本文件,格式化被保存,例如,段落。現在的問題是,有沒有辦法使用StringBuilder對象來構建一個字符串,該字符串保留提取的PDF文檔中的格式化段落等內容?最終我會將字符串存儲爲varchar – Terman 2011-05-29 12:18:36