pdfminer

0熱度

1回答

PDFMiner版本差異？獲取AttributeError：'PDFDocument'對象沒有屬性'seek'

我從以前的SO問題中提取了一些Python代碼，但代碼是爲以前版本的PDFMiner編寫的（而且它似乎對PDFMiner有一些重大更改）。我已經做了一些更改，以解決這些錯誤，但現在我發現了以下錯誤： C:\Users\xxxx\Documents\Programming\Python>pdfextractor.py Traceback (most recent call last):

0熱度

1回答

我在哪裏可以找到PDFMiner API定義？

Python PDFMiner package是否有很好的API定義？例如我可以從源代碼看到LTText包含x0, y0, x1, y1和一些文本，並且有一個返回文本的get_text()方法 - 但是打算直接訪問x0 ...？在這種情況下，爲什麼使用_text和get_text()來包裝文本？

0熱度

1回答

pdfminer不會從填寫的pdf表格提取數據

我試圖使用pdfminer來提取pdf表格中的填寫內容。訪問PDF中的指令是：轉到https://www.ffiec.gov/nicpubweb/nicweb/InstitutionProfile.aspx?parID_Rssd=1073757&parDT_END=99991231 單擊「創建報告」從旁邊第四次報告頂部（即銀行機構系統性風險報告（FR Y型15））：點擊「您的財務報告的要求準

2熱度

1回答

不能在Windows 10

2熱度

1回答

在python中讀取所有類型的文件

我想從python中的不同類型的文件中提取信息（.pdf .doc .docx）並將其轉換爲.txt，但在處理不同的文件時，我在不需要時獲取空格和換行符和許多其他問題。我已經嘗試過PyPDF2和PDF manager.Please建議我可以從文件中提取信息的東西。編輯目前尋找的東西，它可以幫助我從.pdf文件中提取確切的文本。我已經嘗試過PyPDF，PDFMiner和PDF Manager，並

1熱度

1回答

Python pdfminer pdf2html：撇號轉換爲特殊字符

我在Python中使用pdfminer包將PDF轉換爲HTML，但它將撇號轉換爲特殊字符。例如： â€˜This is a text between apostrophesâ€™ 應該是： 'This is a text between apostrophes' 有什麼辦法，以特殊字符轉換回撇號或更改編碼或東西嗎？我不太熟悉字符編碼。也許我可以選擇轉換爲HTML的編碼？

0熱度

1回答

如何使用PDFMiner從PDF中提取表格？

我想從pdf文檔中的某些表中提取信息。考慮輸入： Title 1 some text some text some text some text some text some text some text some text some text some text Table Title | Col1 | Col2 | Col3 | |---------------|------

0熱度

1回答

PDFPage在Python中不存在PDFMiner庫

所以我pip安裝pdfminer3k爲python 3.6。我試圖按照一些例子打開和轉換PDF文件到文本，他們都需要一個PDFPage導入。這對我來說不存在。有沒有解決這個問題的方法？我試圖從在線複製一個PDFPage.py並保存到python搜索pdfminer的目錄中，但我剛剛得到...「導入錯誤：無法導入名稱PDFObjectNotFound」。謝謝！

-3熱度

1回答

如何以編程方式對Power Point圖像進行分組

我想從pdf中提取圖像，使用pdf miner module.I想要將圖形圖像提取爲單個圖像，但實際上模塊沒有返回整個圖形圖像，而是返回我將PDF轉換爲ppt.然後手動將圖形圖像分組爲單個圖像，然後再轉換爲pdf。現在，pdf礦工正在將圖形圖像提取爲單個圖像。手動就可以組電源點images.Is有沒有辦法做到這一點編程

1熱度

1回答

pdfminer - 訪問PDF表

我使用pdfMiner解析PDF文件，將它作爲我的python腳本中的庫使用。在這些PDF的大部分都有一張表，其中一列被命名爲「公司」。有沒有辦法： 1）檢測PDF中該表的存在。 2）獲取所有公司名稱（即表格第二列中的所有條目）。感謝您的幫助 AC