在java中向量化文本文件kmeans clustering java encog

我正在使用java encog機器學習庫來運行kmeans羣集。問題在於它只能用於數字數據。有沒有一種方法可以將文本文件（數據）矢量化，以便我可以直接輸入kmeans聚類算法。在java中向量化文本文件kmeans clustering java encog

我是這個空間的新手。任何幫助表示讚賞。

來源

2015-05-15 lost Coder

可能是更適合http://datascience.stackexchange.com/。然而，你必須解釋你的實體是什麼，以及你想要使用什麼距離度量。如果你有幾個文本，並希望找出文本之間的相似性，一個常見的做法（據我所知）是收集所有文本中的所有單詞（讓它爲100個單詞），然後創建一個100維向量爲每個文本。該矢量對於文本中的單詞具有「1」，對於所有其他條目具有「0」。 – Marco13

嘗試使用對象拖出放流如下

ByteArrayOutputStream baos = new ByteArrayOutputStream(); 
ObjectOutputStream oos = new ObjectOutputStream(baos); 
oos.writeObject("YOUR_TEXT"); 
oos.close();

來源

2015-05-15 04:59:26

在java中向量化文本文件kmeans clustering java encog

回答

相關問題