pdftotext

3熱度

3回答

我一直在使用pdftotext從PDF中提取文本。我也用Ghostscript完成了這個。最近，公用事業提供商更改了他們的PDF，因此其中的一部分不會被這些方法提取。具體來說，我錯過了截止日期和到期總額。當我在閱讀器中打開PDF文件時，「缺失」文本可以突出顯示，複製並粘貼到外部編輯器中。當我在Acrobat Pro中打開它並查看內容（視圖 - >顯示/隱藏 - >導航窗格 - >內容）時，我需要的

0熱度

2回答

搜索多個pdf文件的內容並返回pdf的文件名和匹配內容？

我嘗試這樣做： PDF=$(find /"$DIRECTORY"/ -name '*.pdf' -exec pdftotext {} - \; | grep 'palindrom') 以這種方式僅echo "$PDF從打印.pdf文件一些文本中發現我的話，「迴文」，但我也想知道.pdf文件名中，他找到了這個詞。在/"$DIRECTORY"/有很多文件夾，.pdf和.txt文件，所以我只需要返

0熱度

1回答

如何在Linux中使用pdftext搜索多個pdf文件中的單詞

我有一些pdf文件在一個文件夾中，通過使用以下命令我能夠獲取包含匹配單詞的文件名和行。 pdftotext "sample.pdf" - | grep "search-word" 但這是一個單一的PDF文件，唯一的工作，我想它包含在他們的content.i搜索詞不希望顯示匹配行的文件夾中的所有文件名，請建議我。感謝

1熱度

1回答

特殊字符不能正確地從PDF轉換爲文本

我有一組pdf文件，其中包含中歐文字，如č，Ď，Š等。我想將它們轉換爲文本，並且我通過Apache Tika嘗試了pdftotext和PDFBox，但總是其中一些未正確轉換。奇怪的是，同一文本中的同一個字符在某些地方正確轉換，而在其他地方正確轉換！一個例子是pdf。在pdftotext的情況下，我使用這些選項： pdftotext -nopgbrk -eol dos -enc UTF-8 07

0熱度

1回答

PDFParser錯誤消息

錯誤1 的最好重載方法匹配 'org.pdfbox.pdfparser.PDFParser.PDFParser（java.io.InputStream中）' 具有一些無效參數H：\ pdf_ver3.cs 129 51 PDF到文本轉換器代碼： PDFParser pdfParser = new PDFParser(); pdfParser.ExtractText(path, newpath)

5熱度

2回答

使用PdfMiner和PyPDF2合併列提取文本

我想解析PDF文件使用pdfMiner，但提取的文本得到合併。我正在使用以下鏈接中的pdf文件。 PDF File 我好與任何類型的輸出（文件/串）。下面是代碼，它將提取的文本作爲字符串返回給我，但由於某些原因，列被合併。 from pdfminer.converter import TextConverter from pdfminer.layout import LAParams from

1熱度

1回答

不正確的PDF到文本轉換

我已經嘗試了幾乎所有可用於Linux的PDF到文本轉換器，但文本的某些部分已損壞/不準確。就像某些字符被其他字符替換一樣，某些字詞在PDF中出現的文字中缺失。對於某些單詞轉換後的文本包含分號等我也嘗試aspell，以便我可以更正單詞，但aspell保持沉默的一些單詞。注意：pdf包含瑞典語言文本。那麼，有沒有解決方案來解決PDF到文本轉換的這種不準確？

0熱度

1回答

如何處理python中的texttopdf引發的錯誤

我正在讀取我係統中存在的所有pdf文件，並將它從命令行實用程序「pdftotext」寫入文本文件「output.txt」，但在讀取不正確的文件時結構（如圖像和許多其他的PDF文件），它會引發像 /home/vikrantsingh/Downloads/ARRAYS_NEW.pdf /home/vikrantsingh/Downloads/GPOS_casestudy_solution_v2.pd

0熱度

1回答

pypdf的pdfs列表

我已經得到pypdf工作就好了一個單一的PDF文件，但我似乎無法讓它工作的文件，或for循環多個pdf文件，沒有失敗，因爲的字符串不可調用。任何想法我都可以用作解決方法？ def getPDFContent(path): content = "" # Load PDF into pyPDF pdf = pyPdf.PdfFileReader(file(path, "r

0熱度

1回答

PDFBox的0.7.3將PDF轉換爲文本

我要PDF文件轉換爲文本文件，但一些PDF文件不PDFBOX DLL作爲Acrobat版本所以在Acrobat 5.x的新工作請告訴我我做的事？ output.WriteLine("Begin Parsing....."); output.WriteLine(DateTime.Now.ToString()); PDDocument doc = PDDocument.load(path);