0
A
回答
2
一個很好的描述一步一步從弗吉尼亞大學,你會發現在Reading PDF files into R for text mining。我在下面提取的一些信息。
請按照上述鏈接中的安裝說明進行操作。
完成後,您就可以使用readPDF創建您的功能來讀取PDF文件。無論你喜歡什麼,你都可以命名該函數,例如Rpdf。
Rpdf <- readPDF(control = list(text = "-layout"))
readPDF函數有一個控制參數,我們用它來將選項傳遞給我們的PDF提取引擎。這必須以列表的形式出現,因此我們將選項包含在列表函數中。 xpdf引擎有兩個控制參數:info和text。 info將參數傳遞給pdfinfo.exe,文本將參數傳遞給pdftotext.exe。我們只傳遞一個參數設置爲pdftotext:「-layout」。這告訴pdftptext.exe保持(儘可能最好)文本的原始物理佈局。
使用Rpdf函數,我們可以繼續閱讀意見的文本。我們想要做的是將PDF文件轉換爲文本並將它們存儲在語料庫中,這基本上是一個文本數據庫。我們可以做的一切,用下面的代碼:
opinions <- Corpus(URISource(files), readerControl = list(reader = Rpdf))
相關問題
- 1. 如何閱讀PDF文件
- 2. 如何閱讀Java中的PDF文件?
- 3. 如何閱讀iPhone中的PDF文件
- 4. 如何閱讀R中的NCSS文件?
- 5. 閱讀PDF文件
- 6. 閱讀PDF文件?
- 7. 閱讀PDF文件
- 8. 如何閱讀PDF文件在我appliation
- 9. 如何通過C#閱讀pdf文件?
- 10. 如何閱讀資產文件夾中的.pdf文件
- 11. 如何閱讀中的R
- 12. 用php閱讀PDF文件
- 13. 用php閱讀pdf文件
- 14. 寫在PDF文件閱讀
- 15. Node.js ENOENT閱讀PDF文件
- 16. C++閱讀PDF文件
- 17. 閱讀perl中的pdf文件
- 18. 閱讀Stata的14文件中的R
- 19. 如何閱讀#R中
- 20. 閱讀R中的文件Shiny
- 21. 閱讀R中的分隔文件
- 22. 閱讀用U JSON文件」中的R
- 23. 如何閱讀webview中Resourse文件夾子文件夾中的PDF文件?
- 24. 在電話中閱讀pdf文件
- 25. SAS:在PDF文件中閱讀
- 26. 如何閱讀iphone中的pdf文件的內容
- 27. 如何閱讀保存在mysql數據庫中的pdf文件?
- 28. 如何閱讀PDF文本矩陣
- 29. AutoIt - 如何閱讀pdf文檔屬性
- 30. 如何逐行閱讀pdf
可能重複http://stackoverflow.com/questions/3852354/extracting-text-data-from-pdf-files –
+功能有提到:HTTP:/ /www.inside-r.org/packages/cran/tm/docs/readPDF –
歡迎來到Stack Overflow!請通過[tour](http://stackoverflow.com/tour),[幫助中心](http://stackoverflow.com/help)和[如何提出一個好問題](http:// stackoverflow.com/help/how-to-ask)章節,瞭解本網站的工作原理,並幫助您改善當前和未來的問題,從而幫助您獲得更好的答案。 最好的方法是在問這裏之前做一個Google或SO搜索,如果你有一個特定的問題,比如你嘗試了一些東西,但它不起作用,那麼對於這種格式來說這將是一個更合適的問題。 –