我想從apache Spark的mlib庫中做一個kmeans聚類算法。我有一切設置,但我不確定如何去格式化輸入數據。我對機器學習相對來說比較陌生,所以不勝感激。 在示例data.txt中的數據如下: 0.0 0.0 0.0 0.1 0.1 0.1 0.2 0.2 0.2 9.0 9.0 9.0 9.1 9.1 9.1 9.2 9.2 9.2
如何格式化Spark Spark kmeans聚類算法的數據?
而我要運行的算法是這種格式現在(JSON陣列)的數據:
[{"customer":"ddf6022","order_id":"20031-19958","asset_id":"dd1~33","price":300,"time":1411134115000,"location":"bt2"},{"customer":"ddf6023","order_id":"23899-23825","asset_id":"dd1~33","price":300,"time":1411954672000,"location":"bt2"}]
我怎樣才能將它轉換成可與k-means聚類算法一起使用的東西?我正在使用Java,我猜我需要它是JavaRDD格式,但不知道如何去做。