2014-11-24 22 views
0

我有一個大矩陣,其中單元格表示文本文檔(列)中單詞(行)出現的次數。在矩陣matlab中發現單詞出現

counts = rand(567840,799); % 567840 words,799 text documents 

在不執行循環我需要:

1)提取物的話,在至少該文本文檔

2)的90%occurr所述的indeces提取的所述的indeces在所有文件集合中佔用最多2次的詞。

爲2點,我會做

idx_2 = find(sum(counts,2)<=2); 

我用點1 ...掙扎你 能幫助我嗎?

+0

如果您發佈了矩陣的一些樣本,那就太好了。 – kkuilla 2014-11-24 16:47:46

+0

嗨!我已經將我的文本文件轉換爲計數矩陣。行是詞和列是文檔。單元格(i,j)中的值是文檔j中單詞i的出現次數。 – gabboshow 2014-11-24 16:49:09

+1

是的,但對於其他正在試圖幫助/閱讀這篇文章將來知道你的矩陣是什麼樣的人會有幫助。 – kkuilla 2014-11-24 16:50:09

回答

1

爲1,你可以做

idx1 = find(mean(counts > 0, 2) >= 0.9); 

和2正如你所說

idx2 = find(sum(counts, 2) <= 2); 

編輯 - 我看到路易斯Mendo已經在評論中提到了這一點,所以我也標誌着這個社會的維基。