pdftotext

    0熱度

    1回答

    使用makefile從LaTeX或MarkDown使用pandoc生成PDF時,如何自動檢查生成的PDF是否出現錯誤,代碼/文本編輯器可能找不到?

    -1熱度

    1回答

    我的問題描述這個圖像 http://185.49.12.119/~pogdan/7spacedot/7spacedot.jpg 輸入文件 http://185.49.12.119/~pogdan/7spacedot/monitor_2016_99.pdf 輸出文件 http://185.49.12.119/~pogdan/7spacedot/monitor_2016_99.txt 與罐子和Java

    0熱度

    1回答

    是否有任何.net免費的winform或wpf庫可以提供控件來選擇圖像中的特定區域,然後我們可以將這些區域保存爲不同的圖像。如果我們可以使用鼠標在圖像上繪製網格,然後將該網格另存爲單獨的圖像,那將非常棒。

    1熱度

    1回答

    一直在挖掘歲月,並努力尋找答案。 有我們的OSX開發系統的單個二進制pdftotext 0.39版本(安裝在使用brew install poppler,我們找不到其他版本brew search poppler只有一個單一的一個。我們正試圖找到這個特定版本的源代碼(編譯Linux上)。由於某種原因,我們只有一個特定的PDF文件(但不是更新版本)。(嘗試其他的東西,如Ghostscript pdft

    2熱度

    2回答

    我正在爲Nodejs lambda函數使用節點模塊pdf-to-text,但我遇到了「spawn pdftotext ENOENT」錯誤。我嘗試啓動AWS EC2實例並使用this script編譯poppler。我設法在S3上獲得一個tar.gz文件,其中包含一個popplar文件,並在其中包含一個bin和lib文件夾。 但是,當我參考放置在bin文件夾中的poppler文件是這樣的: proc

    1熱度

    1回答

    我目前正在使用python進行編碼,並設法使用pdftotext來從pdf中提取文本。 該特定文本文件被拆分爲字符串列表。通過使用正則表達式,我能夠找到我感興趣的特定單詞。爲什麼我將文本分成列表的原因是我想測量兩個特定單詞之間的距離,而距離是指單詞之間的單詞數量兩個字。 然而,在找到單詞的位置之後,我希望能夠引用最初的pdf。詳細地說,我對這個頁面感興趣,甚至可能在這些詞語所在的行(如果pdf支持

    0熱度

    1回答

    我已經使用pdfminer將複雜(表格,圖形)和非常長的pdf轉換爲html。我想進一步解析結果(例如提取表格,段落等),然後使用nltk中的句子標記器做進一步的分析。爲此,我想將html保存爲文本文件以找出如何執行解析。不幸的是我的代碼不會寫HTML爲TXT: from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterprete

    0熱度

    1回答

    我對anfd解析PDF一些問題如何: 什麼用 PDDocument.loadNonSeq方法,其中包括的目的一個臨時/臨時文件? 我有大pdf,我需要解析它並獲取文本內容。我用PDDocument.load()然後PDFTextStripper來逐頁提取數據(pdfstripper得到了setStartPage(n)和setEndPage(n) 其中n = n + 1每頁循環)。使用loadNon

    0熱度

    1回答

    我使用this code轉換PDF文本,它工作正常,但它不支持瑞典的性格, 像: correect swedish word = incorrect word Förnamn = Fšrnamn, Försäljningsdatum = FšrsŠljningsdatum, varumärket = varumŠrket, terförsäljaruppgifter

    1熱度

    2回答

    任何人都可以建議一個方法或庫,以大(100MB-4GB)的PDF文本編程? 我通常使用pdftotext(poppler-utils),但它顯示大容量文件的「內存不足」消息,並且只有第一個6000左右的頁面在輸出文本文件中。 也許有辦法將這些PDF分割開來,然後運行pdftotext,也許有方法可以在不消耗內存的情況下成功運行更昂貴的調用,也許另一個庫是最好的...基本上,我很樂意聽到您的建議。感