pdfminer

    3熱度

    3回答

    我跟了周圍的幾個教程,但我不能得到這個代碼塊的運行,我的確從StringIO的必要切換到BytesIO(我相信嗎?) 我不確定爲什麼「香蕉'沒有印刷任何東西,我認爲這些錯誤可能是紅鯡魚?是不是跟着一個python2.7教程並試圖將它翻譯成python3? errors: File "/Users/foo/PycharmProjects/Try/Pdfminer.py", line 28, in <

    2熱度

    2回答

    我有一個過程,我期望自動執行哪些操作,從而從PDF文件獲取一系列表。目前我可以通過在任何瀏覽器(Adobe,蘇門答臘,okular等等)中打開文件,然後按Ctrl + A,Ctrl + C,Ctrl + V將其保存到記事本中,並保持每行對齊合理足夠的格式,然後我可以運行一個正則表達式並將其複製並粘貼到Excel中,以備隨後使用。 當試圖用python做到這一點時,我嘗試了各種模塊,PDFminer

    0熱度

    2回答

    我找到了在線代碼,它允許使用Python中的pdfminer模塊將幾個pdf文件轉換爲文本文件。我試圖擴展我保存在目錄中的幾個pdf文件的代碼,但代碼導致錯誤。 我迄今爲止代碼: import nltk import re import glob from cStringIO import StringIO from pdfminer.pdfinterp import PDFResour

    0熱度

    1回答

    我選擇了由Jacqueline Kazil和Katherine Karmul編寫的O'Reiley的Data Wrangling with Python。在第5章第94頁中,我運行以下代碼。 import slate pdf = 'EN-FINAL Table 9.pdf' with open(pdf) as f: doc = slate.PDF(f) for page in

    1熱度

    1回答

    我正在爲我的PDF數據語料庫開發自定義搜索引擎。 我有一個轉換層,它能夠將PDF內容轉儲到文本(使用Apache Tika和GROBID)。我已完成搜索圖層和返回搜索結果列表的視圖。 現在,我想在原始PDF上添加突出顯示功能,以查找出現搜索字詞的行。是的,我想修改PDF文件,如果有必要。 有什麼方法可以在PDF文件中突出顯示文本? PDFMiner或PyPDF2或其他Python庫是否能夠做到這一

    0熱度

    1回答

    我已經使用pdfminer將複雜(表格,圖形)和非常長的pdf轉換爲html。我想進一步解析結果(例如提取表格,段落等),然後使用nltk中的句子標記器做進一步的分析。爲此,我想將html保存爲文本文件以找出如何執行解析。不幸的是我的代碼不會寫HTML爲TXT: from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterprete

    0熱度

    1回答

    我正在使用pdfminer工具將pdf轉換爲.csv(文本),並且工具pdfinterp.py中的一個子命令仍然使用CStringIO和StringIO字符串到字符串轉換 - import re try: from CStringIO import StringIO except ImportError: from StringIO import StringIO 我使

    0熱度

    1回答

    我正在做swift的iPad應用程序項目,我需要提取pdf字bbox座標並將其轉換爲iPad屏幕座標。我的目標是能夠檢測何時被觸摸的單詞。 我正在使用webview來顯示pdf,並且我正在python中使用pdfminer庫來提取單詞bboxes(我提取字符bboxes,並且我可以通過單詞之間的空格分開來獲取單詞)。但我不知道如何將pdfminer文字座標轉換爲iOS屏幕。 如果需要,我可以解釋更

    0熱度

    1回答

    我解析PDF文件使用我PdfTable類提取表數據的不同實例。當我創建一個類實例,然後創建另一個類實例時,似乎第一個類實例file_1.cells被預先添加到第二個類實例file_2.cells。我無法弄清楚爲什麼會發生這種情況,因爲我不認爲我創建了類變量而只是實例變量。出於某種原因,來自set_cells的數據在另一個類實例被實例化時被持久化。發生什麼事? from pdfminer.pdfdo

    0熱度

    1回答

    我想從pdf中提取文本,這在多次討論中,但仍然無法提取pdf,保留單詞之間的空格。 $python3 Python 3.5.2 (default, Sep 14 2016, 11:28:32) [GCC 6.2.1 20160901 (Red Hat 6.2.1-1)] on linux Type "help", "copyright", "credits" or "license" for