2013-04-02 85 views
0

我有CLUTO格式的文檔詞矩陣:CLUTO文檔詞矩陣,以TM DocumentTermMatrix

#Document #Term #TotalItem 
term-x weight-x term-y weight-y (for only nonzeros terms, a row per document) 

取而代之的語料庫,我想從這個文件中創建DocumentTermMatrix(TM封裝),是這可能嗎?

Cluto File: 
2 3 3 
1 3 3 4 
2 8 

Row File: 
car 
plane 

Column File: 
x 
y 
z 

解決方案:

dtm = as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf); 
rows <- scan("rows.txt", what="", sep="\n"); 
columns <- scan("columns.txt", what="", sep="\n"); 

dtm$dimnames = list(rows,columns); 
+1

這個怎麼樣? '需要(SLAM); as.DocumentTermMatrix(read_stm_CLUTO(file),weightTf)' – Ben

+0

@Ben Perfect,你可以輸入它作爲答案,所以我可以接受它。有什麼方法可以傳遞行和列名嗎? – metdos

回答

1

這應做到:

require(slam) 
as.DocumentTermMatrix(read_stm_CLUTO(file), weightTf) 

如果你可以鏈接到您CLUTO文件或添加它的一個摘錄到你問:我們可以看一下行和列名稱。

hat-tip:https://r-forge.r-project.org/scm/viewvc.php/pkg/R/foreign.R?root=tm&view=diff&r1=1127&r2=1127&diff_format=s

+0

增加了一個例子 – metdos

+0

看起來你已經對col/row名稱進行了排序。你可以做'dtm $ dimnames = list(Docs = rows,Term = columns)' – Ben

相關問題