我正在用Mahout分析k-means算法。我將運行一些測試,觀察性能,並根據我得到的結果進行一些統計。Mahout:CSV矢量和運行程序
我想不出在Mahout中運行我自己的程序的方式。但是,命令行界面可能就足夠了。
運行示例程序我做
$ mahout seqdirectory --input uscensus --output uscensus-seq
$ mahout seq2sparse -i uscensus-seq -o uscensus-vec
$ mahout kmeans -i reuters-vec/tfidf-vectors -o uscensus-kmeans-clusters -c uscensus-kmeans-centroids -dm org.apache.mahout.common.distance.CosineDistanceMeasure -x 5 -ow -cl -k 25
數據集是一個大的CSV文件。每條線都是一條記錄。功能以逗號分隔。第一個字段是一個ID。 由於輸入格式,我無法立即使用seqdirectory。 我想實現這個問題的答案類似的問題How to perform k-means clustering in mahout with vector data stored as CSV?但我仍然有2個問題:
- 如何從CSV轉換爲SeqFile?我想我可以使用Mahout編寫自己的 程序進行此轉換,然後使用其輸出 作爲seq2parse的輸入。我想我可以使用CSVIterator(https://cwiki.apache.org/confluence/display/MAHOUT/File+Format+Integrations)。我應該用什麼課程來閱讀和寫作?
- 如何構建並運行我的新程序?我無法在Mahout這本書的行動或其他問題中弄清楚。