1
所有在LIBSVM格式作爲輸入到火花Mllib教程使用文件的示例。(http://spark.apache.org/docs/latest/mllib-ensembles.html)HDFS文件作爲輸入提供給火花Mllib
數據= MLUtils.loadLibSVMFile(SC,「數據/ mllib/sample_libsvm_data.txt ')
但我有一個文件,其中有數百萬行位於HDFS上,並且希望將此作爲Spark的MLLib輸入使用PySpark,我不想將其轉換爲libsvm格式。
任何人都可以請指導我如何做到這一點?
該格式是什麼樣的? – evgenii