pdfminer

0熱度

1回答

我正在解析顯示多個不同貨物的貨件信息的PDF文件。數據包括地址，商品金額等。我已經成功地拉出了構成每個文件實體的文本字符串。文件在其演示文稿中相對一致，但不便於定位HTML或XML等數據。首先，我試圖拉取一些物品。在文本中，子字符串「TOTAL BOXES:」有多個實例。每一個之後，存在一個整數（所以它看起來是這樣的：「TOTAL BOXES: 3」）我的方法，如以下代碼（在底部一路），一直是：

0熱度

1回答

如何在python中使用pdfMiner預測讀取值

我一直在使用pdfMiner從圖表中讀取數值，到目前爲止它的工作效果非常好！但是，有一個區域正確讀取了正確的數據，但採用了不可預測的方式，這意味着它會以與它們顯示的順序完全不同的順序正確讀取所有圖形值。這並不完全是一個問題，因爲只要我知道，說最後一張圖總是會被首先讀取，我可以圍繞它構造我的程序。除了似乎pdfMiner幾乎完全不可預知，它讀取這些數據的方式，我沒有找到可辨別的模式。這很可能是

0熱度

1回答

使用Python3.4 PDF文本提取

pdf文件中的文本是文本格式，未掃描。 PDFMiner不支持python3，有沒有其他解決方案？

5熱度

1回答

是否可以在pdfquery中使用正則表達式？

我們可以使用正則表達式來檢測pdf中的文本（使用pdfquery或其他工具）嗎？我知道我們可以做到這一點： pdf = pdfquery.PDFQuery("tests/samples/IRS_1040A.pdf") pdf.load() label = pdf.pq('LTTextLineHorizontal:contains("Cash")') left_corner = float(

1熱度

1回答

從文件讀取和MongoDB GridFS的區別？

我正在開發使用Python Flask framework將處理PDF文檔網站。我將PDF文件存儲在MongoDB中，當我需要爲訪問用戶提供服務時，該文件運行良好。我現在需要做一些文字和圖片萃取，我使用pdfminer library。當我使用pdf2txt.py，並提供從文件系統中的文件，這條線（context here）的作品幾乎瞬間： for page in PDFPage.get_page

2熱度

1回答

從pdf中提取文本與pdfminer給出多個副本

我試圖從使用PDFMiner（代碼Extracting text from a PDF file using PDFMiner in python?處的代碼）中提取PDF文件中的文本。除了path/to/pdf之外，我沒有更改代碼。令人驚訝的是，該代碼返回同一文檔的多個副本。我得到了與其他pdf文件相同的結果。我是否需要通過其他論點或者我缺少什麼？任何幫助，高度讚賞。以防萬一，我提供了代碼： fr

4熱度

1回答

PDF抓取：如何自動爲Python中每個pdf所創建的txt文件創建？

下面是我想要做的：一個程序，將PDF文件列表作爲其輸入，併爲列表中的每個文件返回一個.txt文件。例如，給定一個listA = [「file1.pdf」，「file2.pdf」，「file3.pdf」]，我想讓Python創建三個txt文件（每個pdf文件一個），比如說「file1 .txt「，」file2.txt「和」file3.txt「。由於this guy，我的轉換部分可以正常工作。我

7熱度

1回答

查找文檔頁面上的文字

我正在尋找一個優雅的解決方案來查找文檔中的哪些頁面上存在某個詞，我已經存儲在python詞典/列表中。我首先考慮.docx格式作爲輸入，並看看PythonDocx它有一個搜索功能，但顯然沒有真正的docx/xml格式的頁面屬性。如果我解析文檔，我可以在xml樹中查找<w:br w:type="page"/>，但不幸的是這些不會顯示非強制分頁符。我甚至考慮過先將文件轉換爲PDF格式，然後使用類

1熱度

1回答

PDF文本提取返回錯誤的字符由於ToUnicode地圖

我試圖從使用PDFMiner的外語PDF文件中提取文本，但是被ToUnicode語句挫敗。即使在正常的PDF查看器下，該文件的行爲也很奇怪。例如，下面是從文件中的一些文本的截圖：但是，如果我選擇和複製文本，它看起來像這樣： िनरकर 你可以看到幾個字符已經改變，特別是倒數第二個字符。毫不奇怪，PDFMiner會提取不正確的文本。但每個PDF瀏覽器都能正確顯示這些數據。我懷疑這個問題是ToU

2熱度

2回答

警告

我已經發現（略）修改計算器這個腳本爲它的蟒蛇3.3工作： from pdfminer.pdfinterp import PDFResourceManager, process_pdf from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from io import StringIO