2012-02-25 198 views
1

我正在尋找一個Java矩陣庫來執行數據分析和執行的聚類算法(如K-裝置或DBSCAN)的數據類型(包括字符串)的混合物中爪哇矩陣庫

我發現柯爾特和並行Colt(最好用大型和小型數據集執行),但顯然他們不支持String矩陣。數據集條目應該只有雙矩陣。

有什麼建議嗎?

感謝您提前給予的幫助。

+0

如果您知道任何C庫,可以通過JNA將它與Java掛鉤。 – 2012-02-25 22:16:30

+0

我不熟悉這些算法的細節,但是有沒有什麼方法可以將字符串數據映射到所需的雙精度數據中,從而使您能夠理解結果(執行反向映射,如果這樣做有意義?)。 – DNA 2012-02-25 22:23:47

回答

0

看一看ELKI。它支持任意距離函數,並且已經有餘弦距離。所以它顯然可以在文本數據上運行這些算法。

請注意,對於大多數應用,由於餘弦距離也在數值向量上定義,因此您需要將字符串數據轉換爲TF-IDF向量。但是,這些向量通常很稀疏,所以對稀疏向量進行優化處理就可以得到回報。