2011-05-27 44 views

回答

0

事實證明格式「\r\n」確實通過以編程方式從SQL Server表中獲取值並調用Console.writeline()來保證驗證。起初,我是直接從SQL Server Management Studio複製這些值並粘貼到文本文件中 - 這肯定不是驗證的正確方法。

2

提取文本時,製表符會出來,假設它們實際上是製表符。如果不手動記錄當前的文本座標,我不相信可以確定換行符。 可能能夠計算 BTET之間的 Td標記的數量並減去1,但這只是一個猜測。

編輯

令牌上的事沒關係,我認爲這是僅用於線調整(新行),但我錯了。

+0

謝謝克里斯。考慮我有一個叫做緩衝區的StringBuilder對象,我調用buffer.AppendLine(strategy.GetResultantText());它獲取沒有格式化的文本/元數據,如段落等。另一方面如果我聲明StreamWriter對象, invoke writer.WriteLine(strategy.GetResultantText()); ,轉換成文本文件,格式化被保存,例如,段落。現在的問題是,有沒有辦法使用StringBuilder對象來構建一個字符串,該字符串保留提取的PDF文檔中的格式化段落等內容?最終我會將字符串存儲爲varchar – Terman 2011-05-29 12:18:36

1

我建議你根據LocationTextExtractionStrategy編寫自己的TextExtractionStrategy

您需要跟蹤基線確定換行符的位置。

實際上,LocationTextExtractionStrategy可能會爲您添加換行符。無論哪種方式,這就是你需要開始的地方。