pdftotext

    3熱度

    3回答

    我一直在使用pdftotext從PDF中提取文本。我也用Ghostscript完成了這個。最近,公用事業提供商更改了他們的PDF,因此其中的一部分不會被這些方法提取。具體來說,我錯過了截止日期和到期總額。當我在閱讀器中打開PDF文件時,「缺失」文本可以突出顯示,複製並粘貼到外部編輯器中。當我在Acrobat Pro中打開它並查看內容(視圖 - >顯示/隱藏 - >導航窗格 - >內容)時,我需要的

    0熱度

    2回答

    我嘗試這樣做: PDF=$(find /"$DIRECTORY"/ -name '*.pdf' -exec pdftotext {} - \; | grep 'palindrom') 以這種方式僅echo "$PDF從打印.pdf文件一些文本中發現我的話,「迴文」,但我也想知道.pdf文件名中,他找到了這個詞。 在/"$DIRECTORY"/有很多文件夾,.pdf和.txt文件,所以我只需要返

    0熱度

    1回答

    我有一些pdf文件在一個文件夾中,通過使用以下命令我能夠獲取包含匹配單詞的文件名和行。 pdftotext "sample.pdf" - | grep "search-word" 但這是一個單一的PDF文件,唯一的工作,我想它包含在他們的content.i搜索詞不希望顯示匹配行的文件夾中的所有文件名,請建議我。 感謝

    1熱度

    1回答

    我有一組pdf文件,其中包含中歐文字,如č,Ď,Š等。我想將它們轉換爲文本,並且我通過Apache Tika嘗試了pdftotext和PDFBox,但總是其中一些未正確轉換。 奇怪的是,同一文本中的同一個字符在某些地方正確轉換,而在其他地方正確轉換!一個例子是pdf。 在pdftotext的情況下,我使用這些選項: pdftotext -nopgbrk -eol dos -enc UTF-8 07

    0熱度

    1回答

    錯誤1 的最好重載方法匹配 'org.pdfbox.pdfparser.PDFParser.PDFParser(java.io.InputStream中)' 具有一些無效參數H:\ pdf_ver3.cs 129 51 PDF到文本轉換器 代碼: PDFParser pdfParser = new PDFParser(); pdfParser.ExtractText(path, newpath)

    5熱度

    2回答

    我想解析PDF文件使用pdfMiner,但提取的文本得到合併。我正在使用以下鏈接中的pdf文件。 PDF File 我好與任何類型的輸出(文件/串)。下面是代碼,它將提取的文本作爲字符串返回給我,但由於某些原因,列被合併。 from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from

    1熱度

    1回答

    我已經嘗試了幾乎所有可用於Linux的PDF到文本轉換器,但文本的某些部分已損壞/不準確。就像某些字符被其他字符替換一樣,某些字詞在PDF中出現的文字中缺失。對於某些單詞轉換後的文本包含分號等 我也嘗試aspell,以便我可以更正單詞,但aspell保持沉默的一些單詞。 注意:pdf包含瑞典語言文本。 那麼,有沒有解決方案來解決PDF到文本轉換的這種不準確?

    0熱度

    1回答

    我正在讀取我係統中存在的所有pdf文件,並將它從命令行實用程序「pdftotext」寫入文本文件「output.txt」,但在讀取不正確的文件時結構(如圖像和許多其他的PDF文件),它會引發像 /home/vikrantsingh/Downloads/ARRAYS_NEW.pdf /home/vikrantsingh/Downloads/GPOS_casestudy_solution_v2.pd

    0熱度

    1回答

    我已經得到pypdf工作就好了一個單一的PDF文件,但我似乎無法讓它工作的文件,或for循環多個pdf文件,沒有失敗,因爲的字符串不可調用。任何想法我都可以用作解決方法? def getPDFContent(path): content = "" # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "r

    0熱度

    1回答

    我要PDF文件轉換爲文本文件,但一些PDF文件不PDFBOX DLL作爲Acrobat版本所以在Acrobat 5.x的新工作 請告訴我我做的事? output.WriteLine("Begin Parsing....."); output.WriteLine(DateTime.Now.ToString()); PDDocument doc = PDDocument.load(path);