pdfminer

0熱度

1回答

我想通過輸入座標來提取pdf礦工中的文本，我搜索了互聯網，但無法找到任何相關的文檔或代碼。到目前爲止，我發現了一個代碼提取文本並輸出其座標。 LTTextBoxHorizontal (317.564, 91.32756, 580.93228, 116.24235999999999) SHOULD ANY OF THE ABOVE DESCRIBED POLICIES BE CANCELLED

1熱度

3回答

PDFminer：提取其字體信息的文本

我找到this question，但它使用命令行，我不想在命令行中使用子進程調用Python腳本並解析HTML文件以獲取字體信息。我想使用PDFminer作爲庫，我發現this question，但它們只是提取純文本，沒有其他信息，如字體名稱，字體大小等。

0熱度

1回答

使用PDFMiner處理單色頁面

我有一些PDF文檔，我無法使用PyPDF僅使用PDFMiner提取文本。以下代碼可以正常工作以從PDF中提取所有文本，它會遍歷整個文檔，然後返回所有文本。有沒有辦法只能使用PDF的某些頁面？我擁有的PDF格式都是2000-3000多長，我只需要每隔一頁就完成一次。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpr

3熱度

1回答

Python的PDFMIner - PDF到CSV

我希望能夠以PDF文件轉換成CSV文件，並發現了一些有用的腳本，但是，作爲新的Python，我有一個問題：你在哪裏指定的文件路徑PDF和您想要打印的CSV？我使用Python 2.7.11和PDFMiner 20140328. import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter f

2熱度

2回答

pdfminer - 導入錯誤：沒有模塊名爲pdfminer.pdfdocument

我試圖安裝pdfMiner與CollectiveAccess工作。我的主機（pair.com）給了我下面的信息，在這一過程中，以幫助： When compiling, it will likely be necessary to instruct the installation to use your account space above, and not try to install int

4熱度

1回答

我想刮一個印地語（印度語言）pdf文件與Python的

我寫了Python代碼，從PDF文件中刪除所有的數據。這裏的問題是，一旦被刮掉，這些詞會失去語法。如何解決這些問題？我附上了代碼。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.la

0熱度

1回答

單獨的PDF使用pdfminer

我想如下，以提取頁面的PDF頁面，並存儲在字典中的結果頁面： from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.

-2熱度

2回答

我想使用PDFminer從PDF中將文本提取到.text文件。我找到了代碼，但我不知道如何使用它

這是我在這裏找到的代碼。我不知道如何使用它。有人可以通過這個來幫助我轉換樣本pdf嗎？ from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams f

0熱度

1回答

Python pdfminer提取圖像每頁產生多個圖像（應該是單個圖像）

我正在嘗試提取PDF中的圖像。我正在使用的文件是2+頁。第1頁是文本，第2-n頁是圖像（每頁一個，或者它可能是跨多頁的單個圖像;我無法控制原點）。我能夠從第1頁解析文本，但是當我嘗試獲取圖像時，每張圖像頁面會獲得3張圖像。我無法確定使其節省時間的圖像類型。此外試圖每個網頁作爲一個單一的IMG提供無結果保存3張照片（如無法通過取景器上OSX打開）樣品： fp = open('the_file.p

1熱度

1回答

從python中抽取特定標題的PDF數據

我想用python解析PDF文件。我看到了PDFMiner的例子，它無法解釋我的要求。例如，如果我想解析簡歷，它包含各種領域，如總結，經驗和愛好。我有興趣只提取經驗，這個經驗領域將在第一或第二位或在任何地方，我需要確定經驗領域的位置和需要提取數據。我該怎麼做？