我試圖按照許多在線教程來運行Mahout中的kmeans示例。 但是還沒有成功獲得有意義的輸出。我面臨的主要問題是, 從文本文件轉換爲序列文件並返回。如何使用Mahout成功運行kmeans集羣(尤其是獲取人類可讀的輸出)
當我遵循「亨利馬烏維基」的步驟的「合成的控制數據的羣集」 (https://cwiki.apache.org/MAHOUT/clustering-of-synthetic-control-data.html )我可以運行集羣過程(使用$ MAHOUT_HOME/bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job)並創建了一些可讀的控制檯輸出。但我希望從集羣過程中獲取輸出文件(因爲大小很大)。 由Mahout集羣生成的輸出文件都是序列文件,我不能將它們轉換爲可讀文件。 當我嘗試執行「clusterdump」($ MAHOUT_HOME/bin/mahout clusterdump --seqFileDir輸出/ clusters-10 ...)時,出現錯誤。 首先它抱怨說「seqFileDir」選項是意外的,我想沒有「seqFileDir」用於clusterdump或者我缺少一些東西。
試圖在「行動象夫」的方式來使用Mahout中顯得非常棘手。我不知道什麼是必需的類(「import ??」)來編譯該代碼。
您能否建議我在Mahout上成功運行kmeans的步驟?特別是如何從序列文件獲得可讀輸出?