2015-05-15 34 views
3

我正在使用java encog機器學習庫來運行kmeans羣集。問題在於它只能用於數字數據。有沒有一種方法可以將文本文件(數據)矢量化,以便我可以直接輸入kmeans聚類算法。在java中向量化文本文件kmeans clustering java encog

我是這個空間的新手。任何幫助表示讚賞。

+0

可能是更適合http://datascience.stackexchange.com/。然而,你必須解釋你的實體是什麼,以及你想要使用什麼距離度量。如果你有幾個文本,並希望找出文本之間的相似性,一個常見的做法(據我所知)是收集所有文本中的所有單詞(讓它爲100個單詞),然後創建一個100維向量爲每個文本。該矢量對於文本中的單詞具有「1」,對於所有其他條目具有「0」。 – Marco13

回答

1

嘗試使用對象拖出放流 如下

ByteArrayOutputStream baos = new ByteArrayOutputStream(); 
ObjectOutputStream oos = new ObjectOutputStream(baos); 
oos.writeObject("YOUR_TEXT"); 
oos.close();