2016-12-01 67 views
1

我有一個場景,我必須將操作系統數據集羣化。 實際數據包含 151位使用Windows的用戶,27位使用MAC的用戶,5位使用Linux的用戶。使用Carrot2 API與Lingo3GClusteringAlgorithm集羣化數據的問題

使用Lingo3gClusteringAlgorithm與Carrot2 API進行聚類後, 獲取羣集結果爲 MAC OS用戶27,Linux用戶5和最後所有Windows用戶都在其他主題羣集。 但是,如果我將Windows用戶作爲單獨的羣集,那就太好了。 因此,爲了讓Windows成爲一個單獨的集羣,我需要配置哪些集羣屬性。 目前僅使用「組合集羣分數餘額」與值:1.0。 任何幫助表示讚賞

+0

Carrot2執行無監督的基於文本的聚類,所以結果永遠不會完美。如果你可以讓你的數據集在某個地方可用,我們可以檢查它是否可以進一步調整。 –

+0

嘿@StanislawOsinski對於遲到的回覆感到抱歉。感謝您的幫助。這裏是我發佈數據的鏈接 https://pastebin.com/VgNUdjdM。使用以下配置(「組合集羣分數平衡」,「1.0」); (「active-language」,「ENGLISH」); \t(「max-cluster-size」,1.0);用羣集算法作爲Lingo3GClusteringAlgorithm.class – Pavan

回答

0

Carrot2和Lingo3G都是自然文本聚類引擎。您至少需要一打包含至少一段文字的文檔才能獲得明智的結果。

查看你的數據,文本字段包含一個單詞,這對於我們的算法成功來說太少了。對於您的特定數據,您需要一些適用於數字和標稱數據的通用聚類算法。 MahoutWEKA可能是一個好的開始。

+0

好吧。那麼有沒有可能通過在現有數據基礎上添加任何配置來改善羣集。 – Pavan

+0

不幸的是,Carrot2和Lingo3G不適用於您的數據。他們至少需要一段自然文本才能工作。單個單詞是不夠的。 –