2013-06-19 27 views

回答

0

所以象夫不能在需要特定的格式輸入到開展聚類算法。 所以看看 seq2sparse:從文本序列稀疏向量生成文件 seqdirectory:從目錄

舉個例子生成(的文本)序列文件說,爲路透社21587數據集。

以下是以下步驟:

1.mahout seqdirectory -c UTF-8 -i實例/路透萃取/ -o路透seqfiles

2.mahout seq2sparse -i路透seqfiles/-o路透社矢量-OW

3.mahout k均值-i路透社的載體/ TFIDF向量/ \ -c路透初始簇\ -o路透社-k均值集羣\ -dm org.apache .mahout.common.distance.SquaredEuclideanDistanceMeasure \ -cd 1.0 -k 20 -x 20 -Cl

希望它能幫助

0

K均值需要初始集羣以迭代地更新所述質心(這是一個簇的中心),直到它收斂。

-c,path_to_initial_clusters要求你給一個mahout目錄來存儲它的初始簇。

您可以指定mahout的任何路徑來存儲初始集羣,mahout將計算初始集羣並存儲在目錄中。或者,您可以通過樹冠聚類或其他方法計算初始聚類,並告訴mahout您計算初始聚類的初始化K均值聚類的目錄。

相關問題