Mahout 0.5 kmeans示例中的/ path/to/initial/clusters參數是什麼意思？

我試圖在Mahout 0.5中運行kmeans例子，但失敗了！我在kmeans.props中發現它需要一個奇怪的參數-c，這意味着path_to_initial_clusters。Mahout 0.5 kmeans示例中的/ path/to/initial/clusters參數是什麼意思？

這是什麼東西？我該怎麼準備呢？

kmeans.props：

The following parameters must be specified 
i|input = /path/to/input 
c|clusters = /path/to/initial/clusters

來源

2013-06-19 chungtow

所以象夫不能在需要特定的格式輸入到開展聚類算法。所以看看 seq2sparse：從文本序列稀疏向量生成文件 seqdirectory：從目錄

舉個例子生成（的文本）序列文件說，爲路透社21587數據集。

以下是以下步驟：

1.mahout seqdirectory -c UTF-8 -i實例/路透萃取/ -o路透seqfiles

2.mahout seq2sparse -i路透seqfiles/-o路透社矢量-OW

3.mahout k均值-i路透社的載體/ TFIDF向量/ \ -c路透初始簇\ -o路透社-k均值集羣\ -dm org.apache .mahout.common.distance.SquaredEuclideanDistanceMeasure \ -cd 1.0 -k 20 -x 20 -Cl

希望它能幫助

來源

2013-07-26 20:47:04 Jugal

K均值需要初始集羣以迭代地更新所述質心（這是一個簇的中心），直到它收斂。

-c，path_to_initial_clusters要求你給一個mahout目錄來存儲它的初始簇。

您可以指定mahout的任何路徑來存儲初始集羣，mahout將計算初始集羣並存儲在目錄中。或者，您可以通過樹冠聚類或其他方法計算初始聚類，並告訴mahout您計算初始聚類的初始化K均值聚類的目錄。

來源

2015-10-22 14:32:29

Mahout 0.5 kmeans示例中的/ path/to/initial/clusters參數是什麼意思？

回答

相關問題