0
文件的結構對我來說並不重要,因此從之前的solution提到的「將它們轉換爲純文本並使用readLines導入它們」,我將文件類型從「.doc/.docx」更改爲「以名爲「.txt」,並用一個錯誤在運行時讀取MSWord文件
file_list = list.files("D:/R/New",pattern="*.txt",full.names=F
obj_list <- lapply(file_list,readLines)
Warning messages:
1: In FUN(c("adityar.txt":
incomplete final line found on 'adityar.txt'
我試圖與語料庫的幫助,很好,但閱讀沒有找到很好的結果結束了,這裏的第二solution說,關於PDF和unix,任何又好又快方法,我在Windows平臺上工作,任何幫助。
來自R叫什麼你不只是從'adityar.doc'更改文件名'adityar.txt'你呢? – Spacedman
請參閱http://r.789695.n4.nabble.com/reading-in-MS-Word-files-td899087.html – Andrie
@Aashu您是否打開python解決方案? – agstudy