2011-04-11 74 views
0

如果時間不是一個因素,哪個是最好的文檔分類方法,我們不知道有多少類?文本分類,包括預處理

+0

我們也不知道這些話題。 – Evan 2011-04-11 20:59:27

+0

我們不知道有多少類有聚類,然後是類標籤 – Evan 2011-04-11 21:00:20

回答

2

在我的(不完整的)知識中,如果您不知道有多少類,那麼分層凝聚聚類是最好的方法。所有其他聚類算法要麼需要事先了解桶的數量,要麼需要某種交叉驗證或其他實驗來確定桶的合理數量。

+0

+1。儘管平面聚類,但有時推薦N項的sqrt(N)作爲聚類數量。 – 2011-04-11 21:03:01

+0

如何使用Growing Som算法進行實際聚類,然後使用HAC的自下而上方法?這樣我們就不必猜測集羣的數量。 – Evan 2011-04-11 21:07:26

+0

我對Growing Som沒有背景,所以我無法就此提出任何建議。 – bmargulies 2011-04-11 21:17:29