2015-10-13 46 views
1

所有在LIBSVM格式作爲輸入到火花Mllib教程使用文件的示例。(http://spark.apache.org/docs/latest/mllib-ensembles.htmlHDFS文件作爲輸入提供給火花Mllib

數據= MLUtils.loadLibSVMFile(SC,「數據/ mllib/sample_libsvm_data.txt ')

但我有一個文件,其中有數百萬行位於HDFS上,並且希望將此作爲Spark的MLLib輸入使用PySpark,我不想將其轉換爲libsvm格式。

任何人都可以請指導我如何做到這一點?

+0

該格式是什麼樣的? – evgenii

回答

1

通常當您在MLLib中輸入一個算法時,您會創建一個特定數據類型(例如LabeledPoint或一個向量)的rdd。MLUtils.loadLibSVMFile會將您的數據轉換爲標記點RDD。

您可以直接將數據轉換爲算法所需的任何格式,然後將結果RDD作爲MLLib算法的輸入。

http://spark.apache.org/docs/latest/mllib-data-types.html