pdfminer

    0熱度

    1回答

    我想通過輸入座標來提取pdf礦工中的文本,我搜索了互聯網,但無法找到任何相關的文檔或代碼。到目前爲止,我發現了一個代碼提取文本並輸出其座標。 LTTextBoxHorizontal (317.564, 91.32756, 580.93228, 116.24235999999999) SHOULD ANY OF THE ABOVE DESCRIBED POLICIES BE CANCELLED

    1熱度

    3回答

    我找到this question,但它使用命令行,我不想在命令行中使用子進程調用Python腳本並解析HTML文件以獲取字體信息。 我想使用PDFminer作爲庫,我發現this question,但它們只是提取純文本,沒有其他信息,如字體名稱,字體大小等。

    0熱度

    1回答

    我有一些PDF文檔,我無法使用PyPDF僅使用PDFMiner提取文本。以下代碼可以正常工作以從PDF中提取所有文本,它會遍歷整個文檔,然後返回所有文本。 有沒有辦法只能使用PDF的某些頁面? 我擁有的PDF格式都是2000-3000多長,我只需要每隔一頁就完成一次。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpr

    3熱度

    1回答

    我希望能夠以PDF文件轉換成CSV文件,並發現了一些有用的腳本,但是,作爲新的Python,我有一個問題: 你在哪裏指定的文件路徑PDF和您想要打印的CSV? 我使用Python 2.7.11和PDFMiner 20140328. import sys from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter f

    2熱度

    2回答

    我試圖安裝pdfMiner與CollectiveAccess工作。我的主機(pair.com)給了我下面的信息,在這一過程中,以幫助: When compiling, it will likely be necessary to instruct the installation to use your account space above, and not try to install int

    4熱度

    1回答

    我寫了Python代碼,從PDF文件中刪除所有的數據。這裏的問題是,一旦被刮掉,這些詞會失去語法。如何解決這些問題? 我附上了代碼。 from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.la

    0熱度

    1回答

    我想如下,以提取頁面的PDF頁面,並存儲在字典中的結果頁面: from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from pdfminer.

    -2熱度

    2回答

    這是我在這裏找到的代碼。我不知道如何使用它。有人可以通過這個來幫助我轉換樣本pdf嗎? from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.converter import TextConverter from pdfminer.layout import LAParams f

    0熱度

    1回答

    我正在嘗試提取PDF中的圖像。我正在使用的文件是2+頁。第1頁是文本,第2-n頁是圖像(每頁一個,或者它可能是跨多頁的單個圖像;我無法控制原點)。 我能夠從第1頁解析文本,但是當我嘗試獲取圖像時,每張圖像頁面會獲得3張圖像。我無法確定使其節省時間的圖像類型。此外試圖每個網頁作爲一個單一的IMG提供無結果保存3張照片(如無法通過取景器上OSX打開) 樣品: fp = open('the_file.p

    1熱度

    1回答

    我想用python解析PDF文件。我看到了PDFMiner的例子,它無法解釋我的要求。 例如,如果我想解析簡歷,它包含各種領域,如總結,經驗和愛好。 我有興趣只提取經驗,這個經驗領域將在第一或第二位或在任何地方,我需要確定經驗領域的位置和需要提取數據。 我該怎麼做?