解析cp1251 pdf到python中的文本

有什麼辦法從pdf文件中提取帶有俄文文本（cp1251）的文本？解析cp1251 pdf到python中的文本

對於解析pdf文件我使用pdfminer包。我試圖在pdfminer.converter.TextConverter類的參數中指定編碼，但它沒有幫助。

目前尚不清楚你想要做的，一旦你有什麼樣的文字，你想用Python來分析呢？ – Richard

我想從pdf中提取所有文本（可以提取），然後使用nltk包進行分析。 –

如果您想從PDF文件中進一步解析文本，您需要python ...因此，只需先提取文本，而無需轉換文本並將其保存在txt文件中。

然後你打開與蟒蛇的文件，並在轉換文本形式CP1251爲UTF-8，在這裏接受的答案會告訴你怎麼做：

然後解析...

2015-08-26 14:35:30 Richard

感謝您的回答，但有什麼方法可以在不使用外部可執行文件（如pdf2txt）的情況下提取文本，只需使用一些python包？ –

pdf2txt是一個python模塊，它是一個pdfminer的封裝... – Richard

我試圖從命令行使用pdftotext，但對於俄文文本的pdf，它不想正常工作（它只提取帶有特殊符號的英文單詞 - 兩個ASCII）。 –

回答