2012-11-30 55 views
-1

使用itextsharp我需要從c#應用程序中提取PDF文本。當我試圖提取一些pdf文件時,有些詞會散亂並重復出現(例如,堆棧溢出 - 即流式傳輸流程)。有人可以建議如何使這個完美或建議我糾正這一點。我已附上上述案例的示例圖片。 enter image description herec#pdf itextsharp文本分散和重複,同時提取

+0

請不要透露關於任何個人信息在stackoverflow! – MMK

回答

2

我可以幫你猜測,造成這一文本是大膽在PDF文件?在PostScript和PDF中使文本看起來粗體的一種並不少見的方式(一種非常糟糕的方式,但是......)是通過對文本位置進行非常輕微的翻譯(移位)來渲染相同的字符兩次。

如果這確實是造成這種情況的原因,那麼您唯一的解決方法就是計算每個角色的位置並丟棄那些相同並且非常接近的角色。

+0

一個窮人的大膽也是我的猜測。 @ShankarManickavasagam請提供一個樣本PDF來檢查。如果是這種情況,則可以適當擴展該策略以識別它的一些常見模式 – mkl