這可能聽起來很天真,但我只是想確保在使用機器學習術語進行交談時,文檔羣集中的功能是從文檔中選擇的單詞,如果某些文字在詞幹或停用詞後被丟棄。文檔聚類/分類中的功能?
我正在嘗試使用LibSvm庫,它說不同類型的{no_of_instances,no_of_features}有不同的方法。
就像no_of_instances遠低於no_of_features一樣,線性內核也可以。如果兩者都很大,線性就會很快。但是,如果no_of_features很小,則非線性內核更好。
因此,對於我的文檔聚類/分類,我有少量的文檔像100,每個文檔可能有2000左右的文字。所以我落入小no_of_instances和大no_of_features類別取決於我認爲是什麼功能。
我想爲文檔使用tf-idf。
那麼no_of_features是我從tf-idf獲得的向量的大小嗎?
如果是tf-idf,它會是矢量的大小嗎? –
對於tf-idf,'j'th'文件的partiular'i'th'特徵將是'tf(i,j)* idf(i)',其中'tf(i,j)'是數字第i個單詞在'j'th'文檔中出現(按其長度標準化),'idf(i)'是(文檔用'i'th'單詞劃分的文檔數量)的對數。這些特徵的數量將等於被分析的單詞數量(可能是steemed,沒有停用詞或者在另一個詞中被過濾 - 基於知識的方式) – lejlot