我正在使用RTextTools構建帶有矩陣和模型的訓練集,我將稍後將其應用於不同的文檔以對它們進行分類。如何從文檔術語矩陣中刪除NaN值
編輯:矩陣是一個文檔詞矩陣
我遇到的問題是,有時某些文檔時,我創建了new_matrix
與以下行
new_matrix <- create_matrix(data$document,language="english", removeNumbers=FALSE, removePunctuation=TRUE, removeStopwords=TRUE, toLower=TRUE, stemWords=TRUE, minDocFreq=1,weighting=weightTfIdf,originalMatrix=matrix)
我得到一些NaN
值使我的語料庫失敗
corpus <- create_corpus(new_matrix,data$value, testSize=1:100,virgin=FALSE)
With the錯誤
Error in .csr.coo(x) : NA/NaN/Inf in foreign function call (arg 4)
我不知道爲什麼有一些NaN
值。我的猜測是它與new_matrix中存在的某些單詞有關,而不是原始矩陣。
如何在結果矩陣中更改NaN
值0?
這樣做是否會改變分類結果?
任何幫助,非常感謝!謝謝!
相關:[R用矩陣替換NAs](http://stackoverflow.com/q/11140650/271616)。 –
謝謝約書亞,這適用於矩陣,但不適用於文檔術語矩陣 – JordanBelf
A [reproducible example](http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example ) 有助於。 如果沒有,你可以看看矩陣('str(new_matrix)')的內容, 注意它只是一個位置和值的列表, 並刪除了違規的列表 ('m < - new_matrix; i < - is.finite(m $ v); m $ i < - m $ i [i]; m $ j < - m $ j [i]; m $ v < - m $ v [i]')。 –