有什麼辦法從pdf文件中提取帶有俄文文本(cp1251)的文本?解析cp1251 pdf到python中的文本
對於解析pdf文件我使用pdfminer包。 我試圖在pdfminer.converter.TextConverter類的參數中指定編碼,但它沒有幫助。
有什麼辦法從pdf文件中提取帶有俄文文本(cp1251)的文本?解析cp1251 pdf到python中的文本
對於解析pdf文件我使用pdfminer包。 我試圖在pdfminer.converter.TextConverter類的參數中指定編碼,但它沒有幫助。
如果您想從PDF文件中進一步解析文本,您需要python ...因此,只需先提取文本,而無需轉換文本並將其保存在txt文件中。
您可以使用PDF2TXT用於此目的(含unbuntu:http://manpages.ubuntu.com/manpages/precise/man1/pdf2txt.1.html)
然後你打開與蟒蛇的文件,並在轉換文本形式CP1251爲UTF-8,在這裏接受的答案會告訴你怎麼做:
How to convert a string from CP-1251 to UTF-8?
然後解析...
感謝您的回答,但有什麼方法可以在不使用外部可執行文件(如pdf2txt)的情況下提取文本,只需使用一些python包? –
pdf2txt是一個python模塊,它是一個pdfminer的封裝... – Richard
我試圖從命令行使用pdftotext,但對於俄文文本的pdf,它不想正常工作(它只提取帶有特殊符號的英文單詞 - 兩個ASCII)。 –
目前尚不清楚你想要做的,一旦你有什麼樣的文字,你想用Python來分析呢? – Richard
我想從pdf中提取所有文本(可以提取),然後使用nltk包進行分析。 –