2014-01-13 90 views
0

文件的結構對我來說並不重要,因此從之前的solution提到的「將它們轉換爲純文本並使用readLines導入它們」,我將文件類型從「.doc/.docx」更改爲「以名爲「.txt」,並用一個錯誤在運行時讀取MSWord文件

file_list = list.files("D:/R/New",pattern="*.txt",full.names=F 
obj_list <- lapply(file_list,readLines) 
Warning messages: 
1: In FUN(c("adityar.txt": 
    incomplete final line found on 'adityar.txt' 

我試圖與語料庫的幫助,很好,但閱讀沒有找到很好的結果結束了,這裏的第二solution說,關於PDF和unix,任何又好又快方法,我在Windows平臺上工作,任何幫助。

+0

來自R叫什麼你不只是從'adityar.doc'更改文件名'adityar.txt'你呢? – Spacedman

+0

請參閱http://r.789695.n4.nabble.com/reading-in-MS-Word-files-td899087.html – Andrie

+0

@Aashu您是否打開python解決方案? – agstudy

回答

0

使用Python,你可以這樣做:

from docx import * 
import json 
document = opendocx("path_to_your_docx") 
res = getdocumenttext(document) 

您可以保存您的腳本,並使用system