2016-01-10 51 views
0

我想將PDF轉換爲TXT使用pdftotxt。繼續收到錯誤。希望得到的幫助:PDF到txt在R

dest <- getwd() 

# make a vector of PDF file names 
myfiles <- list.files(path = dest, pattern = "pdf", full.names = TRUE) 


lapply(myfiles, function(i) system(paste('"C:/Users/Karan  Tibrewal/Downloads/xpdfbin-win-3.04.zip/xpdfbin-win-3.04/bin32/pdftotxt.exe"', 
            paste0('"', i, '"')), wait = FALSE)) 

我得到這樣的警告:

警告消息: 運行命令「「C:/用戶/卡蘭Tibrewal /下載/ xpdfbin-win-3.04.zip/xpdfbin - 贏 - 3.04/bin64/pdftotxt.exe「」C:/ Users/Karan Tibrewal/Documents/cem/12_13.pdf「'有狀態127

我無法找到txt文件。怎麼了?

+1

也許你可以使用'tm'包中的'readPDF()'函數。該函數使用程序'pdftotext'和'pdfinfo',它們需要在您的計算機上安裝和訪問,但它提供了一個簡便的包裝器,它簡化了從R中的PDF文件中提取文本。 – RHertel

回答

1

我想你需要一個分隔符,當路徑中有空格時。像「\」而不是\? Karan和Tibrewel之間?

+0

「C:/ Users/Karan \ Tibrewal/Downloads/xpdfbin-win-3.04.zip/xpdfbin-win-3.04/bin32/pdftotxt.exe「就像那樣? –

+0

是的,你也可以試試C:/ Users // Karan Tibrewal //下載/ xpdfbin-win-3.04.zip/xpdfbin-win-3.04/bin32/pdftotxt.exe – BioProgram

0

我想你會因爲文件路徑中的空間而出錯。 可能的解決方案是使用雙引號中的「整個文件路徑」。 使用messagebox並檢查您的完整路徑是否使用雙引號。

使用此:

' 「」 「C:/用戶/卡蘭Tibrewal /下載/ xpdfbin-win-3.04.zip/xpdfbin贏-3.04/bin32中/ pdftotxt.exe」 「」'

paste0(''「''',i,'」「'')