2017-08-31 94 views
0

謝謝您已提前輸入。Edgar包裝|問題與.txt文件

我的問題是edgar包的getSentimentCount(word.frq, words.list)函數。該函數應讀取word.list這是一個.txt文件,並比較另一個現有列表(word.frq),也是一個.txt文件的內容。

這對一個單詞之間沒有空格的.txt文件可以正常工作,但R仍然可以讀取文件,就好像有(count> 1)一樣。如果在每個單詞後面有一個新行,則可以讀取另一個文件(計數> 1),但會導致getSentimentCount(word.frq, words.list)函數的錯誤。如果.txt文件被刪除了新行並且所有單詞放在一行中(如其他文件),那麼R只能讀取一個單詞(基本上所有單詞在一行中)並且count = 1.

Are there R區分的不同類型的.txt文件?

LINK to both .txt files。 negwords.txt作品,litwords.txt導致錯誤。

我很感激任何輸入。

回答

0

解決:該功能getSentimentCount(word.frq, words.list)只讀取.txt (MS-DOS)

0

R讀取nospace txt中只有一個字的事實是正常的:就R而言,這只是一個沒有任何分隔符的字符串。

我沒有任何問題,閱讀其他文檔:

library(edgar) 
wf <- getWordfrquency("R/litwords_space.txt") 
neg <- readLines("R/negwords.txt") 
wgs <- getSentimentCount(word.frq = wf, words.list = neg) 

現在,你的詞彙列表只包含出現一次的話,那麼頻率表將永遠是一個。

如果您正在進行文本挖掘和情感分析,我強烈建議您切換到tidytext包。

科林

+0

感謝您的快速回復。我在'getSentimentCount(word.frq,words.list)'中將'litwords.txt'作爲'words.list'讀取時遇到了問題,但是如果只是用'readLines()'讀取它(讀取結果爲'read項目903')。這樣做會導致錯誤:「row.names < - 。data.frame'('* tmp *',value = value)中的錯誤:無效的'row.names'長度」。對此有何意見?提前致謝。 –