正常方法失敗時從PDF文件中恢復文本

我有幾百個PDF文件，需要從中抽取部分文本。對於很多人來說，pdftotext工作正常，但對於其他人來說，它會丟失大段文字。如果我在Acrobat中打開PDF，然後選擇手動文本和複製/粘貼到Emacs，然後查看該文件沒有編碼，我得到的東西是這樣的：正常方法失敗時從PDF文件中恢復文本

Husband \364\200\200\272\364\200\201\213\364 etc.

我該如何正確提取文本？

我應該提到，我試過將文件保存爲Acrobat;也嘗試在複製之前應用Acrobat的Document => OCR功能。

2013-11-15 vortek

您是否閱讀了右側**相關**欄中的所有鏈接？爲了解決問題的規模和缺乏普遍的通用解決方案？也許如果你發佈樣本，有人可能會建議你的特例的解決方案。而且，爲了使OCR正常工作，您應該首先光柵化文件。 – user2846289

謝謝@VadimR這些是有益的建議。 – vortek

-1

爲什麼不先將PDF轉換爲doc或txt？請參閱指南： http://www.aolor.com/pdf-converter/user-guide.html

2013-11-15 16:29:47 user2997045

回答