我需要將PDF文件轉換爲文本以使用Perl提取信息。但是我沒有以位置格式獲取文本文件,這意味着PDF和文本中元素的位置應該相同。我試過CAM::PDF::PageText
,但輸出是非常不同的。如何從PDF獲取位置數據到文本
我遇到過涉及pdftotext和Poppler的文章,但我無法在Windows 10 64位系統中設置這些文章。
請讓我知道是否有任何其他方法來解決這個問題。
我需要將PDF文件轉換爲文本以使用Perl提取信息。但是我沒有以位置格式獲取文本文件,這意味着PDF和文本中元素的位置應該相同。我試過CAM::PDF::PageText
,但輸出是非常不同的。如何從PDF獲取位置數據到文本
我遇到過涉及pdftotext和Poppler的文章,但我無法在Windows 10 64位系統中設置這些文章。
請讓我知道是否有任何其他方法來解決這個問題。
對不起,但最後我得到了一個解決方案,這是由Xpdf pdftotext和最好的方法是下載預先編譯的二進制文件(.exe)文件。然後使用條命令行invaocation我們可以使用各種工具,如pdftohtml,pdftotext等
看看這個頁面
,並在標題「預編譯的二進制文件」下,你可以發現。
在命令提示符下您需要更改目錄到二元存在,則調用該二進制與文件作爲參數的地方
Exapmle: pdftotext File1.pdf
上面的命令會給FILE1.TXT在同一個文件夾中的二進制存在。
What you really want是pdftohtml與-xml
輸出。你可以build it on Windows。
有2種方式在Windows上編譯poppler的:
- 使用在cygwin下
- 使用本地的Visual Studio(MSVC)生成文件
MinGW的編譯器本文檔介紹了第二種方法。 ...
您可以下載Visual Studio Community Edition遵守許可證條款得到2013年和2015年版本的編譯器,並與IDE一起構建工具。
或者,您可以獲取Visual C++ build tools。另見Walkthrough: Compiling a Native C++ Program on the Command Line。
http://stackoverflow.com/questions/6104045/installing-poppler-on-cygwin – xxfelixxx
你有沒有考慮將文本從Acrobat複製粘貼到文本編輯器中? – Borodin
我能夠複製粘貼數據,但格式與PDF不相似,因爲我將需要稍後從文本文件中提取信息。 – Mohit