pdfminer

3熱度

3回答

我跟了周圍的幾個教程，但我不能得到這個代碼塊的運行，我的確從StringIO的必要切換到BytesIO（我相信嗎？）我不確定爲什麼「香蕉'沒有印刷任何東西，我認爲這些錯誤可能是紅鯡魚？是不是跟着一個python2.7教程並試圖將它翻譯成python3？ errors: File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 28, in <

2熱度

2回答

從具有與複製+粘貼相同佈局的PDF文件中獲取數據

我有一個過程，我期望自動執行哪些操作，從而從PDF文件獲取一系列表。目前我可以通過在任何瀏覽器（Adobe，蘇門答臘，okular等等）中打開文件，然後按Ctrl + A，Ctrl + C，Ctrl + V將其保存到記事本中，並保持每行對齊合理足夠的格式，然後我可以運行一個正則表達式並將其複製並粘貼到Excel中，以備隨後使用。當試圖用python做到這一點時，我嘗試了各種模塊，PDFminer

0熱度

2回答

用pdfminer轉換幾個文件

我找到了在線代碼，它允許使用Python中的pdfminer模塊將幾個pdf文件轉換爲文本文件。我試圖擴展我保存在目錄中的幾個pdf文件的代碼，但代碼導致錯誤。我迄今爲止代碼： import nltk import re import glob from cStringIO import StringIO from pdfminer.pdfinterp import PDFResour

0熱度

1回答

意外的EOF，在Python上使用slate解析PDF文件2.7.12

我選擇了由Jacqueline Kazil和Katherine Karmul編寫的O'Reiley的Data Wrangling with Python。在第5章第94頁中，我運行以下代碼。 import slate pdf = 'EN-FINAL Table 9.pdf' with open(pdf) as f: doc = slate.PDF(f) for page in

1熱度

1回答

使用Python突出顯示PDF中的文本

我正在爲我的PDF數據語料庫開發自定義搜索引擎。我有一個轉換層，它能夠將PDF內容轉儲到文本（使用Apache Tika和GROBID）。我已完成搜索圖層和返回搜索結果列表的視圖。現在，我想在原始PDF上添加突出顯示功能，以查找出現搜索字詞的行。是的，我想修改PDF文件，如果有必要。有什麼方法可以在PDF文件中突出顯示文本？ PDFMiner或PyPDF2或其他Python庫是否能夠做到這一

0熱度

1回答

將html標籤寫入python中的文本文件

我已經使用pdfminer將複雜（表格，圖形）和非常長的pdf轉換爲html。我想進一步解析結果（例如提取表格，段落等），然後使用nltk中的句子標記器做進一步的分析。爲此，我想將html保存爲文本文件以找出如何執行解析。不幸的是我的代碼不會寫HTML爲TXT： from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterprete

0熱度

1回答

在Python 3中解決以前的CStringIO和字符串IO函數Pdfinterp（Pdfminer）

我正在使用pdfminer工具將pdf轉換爲.csv（文本），並且工具pdfinterp.py中的一個子命令仍然使用CStringIO和StringIO字符串到字符串轉換 - import re try: from CStringIO import StringIO except ImportError: from StringIO import StringIO 我使

0熱度

1回答

轉換pdfminer bbox座標到iOS屏幕

我正在做swift的iPad應用程序項目，我需要提取pdf字bbox座標並將其轉換爲iPad屏幕座標。我的目標是能夠檢測何時被觸摸的單詞。我正在使用webview來顯示pdf，並且我正在python中使用pdfminer庫來提取單詞bboxes（我提取字符bboxes，並且我可以通過單詞之間的空格分開來獲取單詞）。但我不知道如何將pdfminer文字座標轉換爲iOS屏幕。如果需要，我可以解釋更

0熱度

1回答

被添加到同一類

我解析PDF文件使用我PdfTable類提取表數據的不同實例。當我創建一個類實例，然後創建另一個類實例時，似乎第一個類實例file_1.cells被預先添加到第二個類實例file_2.cells。我無法弄清楚爲什麼會發生這種情況，因爲我不認爲我創建了類變量而只是實例變量。出於某種原因，來自set_cells的數據在另一個類實例被實例化時被持久化。發生什麼事？ from pdfminer.pdfdo

0熱度

1回答

使用pdfminer提取pdf並用空格

我想從pdf中提取文本，這在多次討論中，但仍然無法提取pdf，保留單詞之間的空格。 $python3 Python 3.5.2 (default, Sep 14 2016, 11:28:32) [GCC 6.2.1 20160901 (Red Hat 6.2.1-1)] on linux Type "help", "copyright", "credits" or "license" for