我創建了一個包含1859個文檔(行)和25722(列)的DocumentTermMatrix。爲了在這個矩陣上執行進一步的計算,我需要把它轉換成一個規則矩陣。我想使用as.matrix()
命令。但是,它返回以下錯誤:無法分配大小爲364.8 MB的向量。tm包錯誤「無法將DocumentTermMatrix轉換爲正常矩陣,因爲矢量太大」
> corp
A corpus with 1859 text documents
> mat<-DocumentTermMatrix(corp)
> dim(mat)
[1] 1859 25722
> is(mat)
[1] "DocumentTermMatrix"
> mat2<-as.matrix(mat)
Fehler: kann Vektor der Größe 364.8 MB nicht allozieren # cannot allocate vector of size 364.8 MB
> object.size(mat)
5502000 bytes
由於某些原因,對象的大小似乎隨着轉換爲常規矩陣而急劇增加。我怎樣才能避免這種情況?
或者是否有一種替代方法對DocumentTermMatrix執行常規矩陣操作?
感謝您的快速回答。不幸的是,SparseM似乎並不會有幫助,因爲我需要計算每對線之間的Jaccard相似度。我通過使用純素包中的vegdist()函數來做到這一點。這不適用於稀疏矩陣。 – Christian