pdfminer

    0熱度

    1回答

    我從以前的SO問題中提取了一些Python代碼,但代碼是爲以前版本的PDFMiner編寫的(而且它似乎對PDFMiner有一些重大更改) 。我已經做了一些更改,以解決這些錯誤,但現在我發現了以下錯誤: C:\Users\xxxx\Documents\Programming\Python>pdfextractor.py Traceback (most recent call last):

    0熱度

    1回答

    Python PDFMiner package是否有很好的API定義? 例如我可以從源代碼看到LTText包含x0, y0, x1, y1和一些文本,並且有一個返回文本的get_text()方法 - 但是打算直接訪問x0 ...? 在這種情況下,爲什麼使用_text和get_text()來包裝文本?

    0熱度

    1回答

    我試圖使用pdfminer來提取pdf表格中的填寫內容。訪問PDF中的指令是: 轉到https://www.ffiec.gov/nicpubweb/nicweb/InstitutionProfile.aspx?parID_Rssd=1073757&parDT_END=99991231 單擊「創建報告」從旁邊第四次報告頂部(即銀行機構系統性風險報告(FR Y型15)) : 點擊「您的財務報告的要求準

    2熱度

    1回答

    安裝pdfminer.six在我cmd窗口,我輸入 pip install pdfminer.six ,它給了我這些錯誤。 Microsoft Windows [Version 10.0.15063] (c) 2017 Microsoft Corporation. All rights reserved. C:\Users\Eric Kim>pip install pdfminer.si

    2熱度

    1回答

    我想從python中的不同類型的文件中提取信息(.pdf .doc .docx)並將其轉換爲.txt,但在處理不同的文件時,我在不需要時獲取空格和換行符和許多其他問題。我已經嘗試過PyPDF2和PDF manager.Please建議我可以從文件中提取信息的東西。 編輯 目前尋找的東西,它可以幫助我從.pdf文件中提取確切的文本。我已經嘗試過PyPDF,PDFMiner和PDF Manager,並

    1熱度

    1回答

    我在Python中使用pdfminer包將PDF轉換爲HTML,但它將撇號轉換爲特殊字符。例如: ‘This is a text between apostrophes’ 應該是: 'This is a text between apostrophes' 有什麼辦法,以特殊字符轉換回撇號或更改編碼或東西嗎?我不太熟悉字符編碼。也許我可以選擇轉換爲HTML的編碼?

    0熱度

    1回答

    我想從pdf文檔中的某些表中提取信息。 考慮輸入: Title 1 some text some text some text some text some text some text some text some text some text some text Table Title | Col1 | Col2 | Col3 | |---------------|------

    0熱度

    1回答

    所以我pip安裝pdfminer3k爲python 3.6。我試圖按照一些例子打開和轉換PDF文件到文本,他們都需要一個PDFPage導入。這對我來說不存在。有沒有解決這個問題的方法?我試圖從在線複製一個PDFPage.py並保存到python搜索pdfminer的目錄中,但我剛剛得到...「導入錯誤:無法導入名稱PDFObjectNotFound」。 謝謝!

    -3熱度

    1回答

    我想從pdf中提取圖像,使用pdf miner module.I想要將圖形圖像提取爲單個圖像,但實際上模塊沒有返回整個圖形圖像,而是返回我將PDF轉換爲ppt.然後手動將圖形圖像分組爲單個圖像,然後再轉換爲pdf。現在,pdf礦工正在將圖形圖像提取爲單個圖像。 手動就可以組電源點images.Is有沒有辦法做到這一點編程

    1熱度

    1回答

    我使用pdfMiner解析PDF文件,將它作爲我的python腳本中的庫使用。 在這些PDF的大部分都有一張表,其中一列被命名爲「公司」。 有沒有辦法: 1)檢測PDF中該表的存在。 2)獲取所有公司名稱(即表格第二列中的所有條目)。 感謝您的幫助 AC