0
A
回答
0
如果您的數據是RDD,您可以撥打方法:saveAsLibSVMFile(rdd, path)
它是apache.spark.mllib.util.MLUtils
包的一部分。
對於官方文檔看:https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.mllib.util.MLUtils $
這裏是Scala的例子假設你已經將您的分類數據爲二進制的特點:(你可以做同樣的Python或Java的太)
val responseData=sc.textFile("response.txt")
val responseValue = responseData.map(line => line.trim().split(" ").map(_.toDouble))
val featuresData=sc.textFile("features.txt")
val featuresValue = featuresData.map(line => {
val featureInt = line.trim().toInt
})
val data = featuresValue.zip(featuresData).map(
line => LabeledPoint(line._1, Vectors.dense(line._2))
)
saveAsLibSVMFile(data, "data.libsvm")
如果你想要的PySpark版本,沒有測試過這個,但類似:
from pyspark.mllib.linalg import SparseVector
from pyspark.mllib.regression import LabeledPoint
responseData=sc.textFile("response.txt")
responseValue = responseData.map(lambda line: map(lambda x: Decimal(x), line.strip().split(" ")))
# for clarity you can also extract the lambda into a function
featuresData=sc.textFile("features.txt")
featuresValue = featuresData.map(lambda line: Int(line.strip()))
mtx = zip(featuresValue.collect(),featuresData.collect())
data = map(lambda line: LabeledPoint(line[0], Vectors.sparse(line[1]), mtx))
saveAsLibSVMFile(data, "data.libsvm")
相關問題
- 1. 帶星火的Spark決策樹
- 2. Apache Spark決策樹預測
- 3. 隨機決策樹分類
- 4. 決策樹在樹決策中保持使用Y變量
- 5. 如何使用Spark決策樹調整分類閾值
- 6. 帶LIBSVM數據錯誤的Spark決策樹
- 7. 完美的決策樹分類
- 8. 決策樹的文檔分類
- 9. 多變量決策樹學習
- 10. SKLearn決策樹分類深度/訂購
- 11. 傳遞分類數據Sklearn決策樹
- 12. 如何處理spark tree中的決策樹,隨機森林的分類特徵?
- 13. 處理決策樹的分類特徵的策略?
- 14. 帶數值的ID3決策樹
- 15. 在帶有字符串字段的spark中使用決策樹分類器的數據框
- 16. J48決策樹
- 17. 決策樹jQuery
- 18. 決策樹。噪聲策略
- 19. 決策樹中的Shannon熵度量
- 20. 來自決策樹的假設數量?
- 21. scikit學習決策樹導出graphviz - 決策樹中錯誤的類名稱
- 22. Adaboost決策樹/樹樁
- 23. 微軟商業智能 - 決策樹 - 「決策樹沒有發現模型拆分」
- 24. 決策樹問題解決
- 25. 決策樹:細化
- 26. 決策樹結果
- 27. weka決策樹java
- 28. 建模決策樹
- 29. 決策樹修剪
- 30. 修剪決策樹
什麼是features.txt只有分類數據或所有功能?並將代碼與刪除python中的所有「val」一起工作。 –
所有功能。我假設你已經將分類改爲二元特徵。該代碼需要修改才能使用PySpark –
謝謝。我做了一些改變,但我得到了一些錯誤的zip說,「zip參數必須支持迭代。我也試圖通過刪除zip字,但然後錯誤是地圖()必須有至少2個參數。請幫助。 –