2013-11-15 52 views
1

我有幾百個PDF文件,需要從中抽取部分文本。對於很多人來說,pdftotext工作正常,但對於其他人來說,它會丟失大段文字。如果我在Acrobat中打開PDF,然後選擇手動文本和複製/粘貼到Emacs,然後查看該文件沒有編碼,我得到的東西是這樣的:正常方法失敗時從PDF文件中恢復文本

Husband \364\200\200\272\364\200\201\213\364 etc. 

我該如何正確提取文本?

我應該提到,我試過將文件保存爲Acrobat;也嘗試在複製之前應用Acrobat的Document => OCR功能。

+2

您是否閱讀了右側**相關**欄中的所有鏈接?爲了解決問題的規模和缺乏普遍的通用解決方案?也許如果你發佈樣本,有人可能會建議你的特例的解決方案。而且,爲了使OCR正常工作,您應該首先光柵化文件。 – user2846289

+0

謝謝@VadimR這些是有益的建議。 – vortek

回答