如何閱讀R中的pdf文件

有人可以幫助我讓我知道如何閱讀pdf文件，其中包括一些表格。我想提取表中的數據，並安排到csv文件。如何閱讀R中的pdf文件

非常感謝

2016-07-26 許曉雯

可能重複http://stackoverflow.com/questions/3852354/extracting-text-data-from-pdf-files –

+功能有提到：HTTP：/ /www.inside-r.org/packages/cran/tm/docs/readPDF –

歡迎來到Stack Overflow！請通過[tour]（http://stackoverflow.com/tour），[幫助中心]（http://stackoverflow.com/help）和[如何提出一個好問題]（http：// stackoverflow.com/help/how-to-ask）章節，瞭解本網站的工作原理，並幫助您改善當前和未來的問題，從而幫助您獲得更好的答案。最好的方法是在問這裏之前做一個Google或SO搜索，如果你有一個特定的問題，比如你嘗試了一些東西，但它不起作用，那麼對於這種格式來說這將是一個更合適的問題。 –

一個很好的描述一步一步從弗吉尼亞大學，你會發現在Reading PDF files into R for text mining。我在下面提取的一些信息。

請按照上述鏈接中的安裝說明進行操作。

完成後，您就可以使用readPDF創建您的功能來讀取PDF文件。無論你喜歡什麼，你都可以命名該函數，例如Rpdf。

Rpdf <- readPDF(control = list(text = "-layout"))

readPDF函數有一個控制參數，我們用它來將選項傳遞給我們的PDF提取引擎。這必須以列表的形式出現，因此我們將選項包含在列表函數中。 xpdf引擎有兩個控制參數：info和text。 info將參數傳遞給pdfinfo.exe，文本將參數傳遞給pdftotext.exe。我們只傳遞一個參數設置爲pdftotext：「-layout」。這告訴pdftptext.exe保持（儘可能最好）文本的原始物理佈局。

使用Rpdf函數，我們可以繼續閱讀意見的文本。我們想要做的是將PDF文件轉換爲文本並將它們存儲在語料庫中，這基本上是一個文本數據庫。我們可以做的一切，用下面的代碼：

opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))

來源

2016-07-26 16:10:11

如何閱讀R中的pdf文件

回答

相關問題