2016-09-29 70 views
1

我需要將PDF文件轉換爲文本以使用Perl提取信息。但是我沒有以位置格式獲取文本文件,這意味着PDF和文本中元素的位置應該相同。我試過CAM::PDF::PageText,但輸出是非常不同的。如何從PDF獲取位置數據到文本

我遇到過涉及pdftotext和Poppler的文章,但我無法在Windows 10 64位系統中設置這些文章。

請讓我知道是否有任何其他方法來解決這個問題。

+0

http://stackoverflow.com/questions/6104045/installing-poppler-on-cygwin – xxfelixxx

+0

你有沒有考慮將文本從Acrobat複製粘貼到文本編輯器中? – Borodin

+0

我能夠複製粘貼數據,但格式與PDF不相似,因爲我將需要稍後從文本文件中提取信息。 – Mohit

回答

0

對不起,但最後我得到了一個解決方案,這是由Xpdf pdftotext和最好的方法是下載預先編譯的二進制文件(.exe)文件。然後使用條命令行invaocation我們可以使用各種工具,如pdftohtml,pdftotext等

看看這個頁面

http://www.foolabs.com/xpdf/download.html

,並在標題「預編譯的二進制文件」下,你可以發現。

在命令提示符下您需要更改目錄到二元存在,則調用該二進制與文件作爲參數的地方

Exapmle: pdftotext File1.pdf 

上面的命令會給FILE1.TXT在同一個文件夾中的二進制存在。

1

What you really wantpdftohtml-xml輸出。你可以build it on Windows

有2種方式在Windows上編譯poppler的:

  • 使用在cygwin下
  • 使用本地的Visual Studio(MSVC)生成文件

MinGW的編譯器本文檔介紹了第二種方法。 ...

您可以下載Visual Studio Community Edition遵守許可證條款得到2013年和2015年版本的編譯器,並與IDE一起構建工具。

或者,您可以獲取Visual C++ build tools。另見Walkthrough: Compiling a Native C++ Program on the Command Line