2016-07-26 174 views
0

有人可以幫助我讓我知道如何閱讀pdf文件,其中包括一些表格。我想提取表中的數據,並安排到csv文件。如何閱讀R中的pdf文件

非常感謝

+2

可能重複http://stackoverflow.com/questions/3852354/extracting-text-data-from-pdf-files –

+1

+功能有提到:HTTP:/ /www.inside-r.org/packages/cran/tm/docs/readPDF –

+0

歡迎來到Stack Overflow!請通過[tour](http://stackoverflow.com/tour),[幫助中心](http://stackoverflow.com/help)和[如何提出一個好問題](http:// stackoverflow.com/help/how-to-ask)章節,瞭解本網站的工作原理,並幫助您改善當前和未來的問題,從而幫助您獲得更好的答案。 最好的方法是在問這裏之前做一個Google或SO搜索,如果你有一個特定的問題,比如你嘗試了一些東西,但它不起作用,那麼對於這種格式來說這將是一個更合適的問題。 –

回答

2

一個很好的描述一步一步從弗吉尼亞大學,你會發現在Reading PDF files into R for text mining。我在下面提取的一些信息。

請按照上述鏈接中的安裝說明進行操作。

完成後,您就可以使用readPDF創建您的功能來讀取PDF文件。無論你喜歡什麼,你都可以命名該函數,例如Rpdf。

Rpdf <- readPDF(control = list(text = "-layout")) 

readPDF函數有一個控制參數,我們用它來將選項傳遞給我們的PDF提取引擎。這必須以列表的形式出現,因此我們將選項包含在列表函數中。 xpdf引擎有兩個控制參數:info和text。 info將參數傳遞給pdfinfo.exe,文本將參數傳遞給pdftotext.exe。我們只傳遞一個參數設置爲pdftotext:「-layout」。這告訴pdftptext.exe保持(儘可能最好)文本的原始物理佈局。

使用Rpdf函數,我們可以繼續閱讀意見的文本。我們想要做的是將PDF文件轉換爲文本並將它們存儲在語料庫中,這基本上是一個文本數據庫。我們可以做的一切,用下面的代碼:

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))