2015-08-26 42 views
0

有什麼辦法從pdf文件中提取帶有俄文文本(cp1251)的文本?解析cp1251 pdf到python中的文本

對於解析pdf文件我使用pdfminer包。 我試圖在pdfminer.converter.TextConverter類的參數中指定編碼,但它沒有幫助。

+0

目前尚不清楚你想要做的,一旦你有什麼樣的文字,你想用Python來分析呢? – Richard

+0

我想從pdf中提取所有文本(可以提取),然後使用nltk包進行分析。 –

回答

0

如果您想從PDF文件中進一步解析文本,您需要python ...因此,只需先提取文本,而無需轉換文本並將其保存在txt文件中。

您可以使用PDF2TXT用於此目的(含unbuntu:http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html

然後你打開與蟒蛇的文件,並在轉換文本形式CP1251爲UTF-8,在這裏接受的答案會告訴你怎麼做:

How to convert a string from CP-1251 to UTF-8?

然後解析...

+0

感謝您的回答,但有什麼方法可以在不使用外部可執行文件(如pdf2txt)的情況下提取文本,只需使用一些python包? –

+0

pdf2txt是一個python模塊,它是一個pdfminer的封裝... – Richard

+0

我試圖從命令行使用pdftotext,但對於俄文文本的pdf,它不想正常工作(它只提取帶有特殊符號的英文單詞 - 兩個ASCII)。 –