2016-08-26 81 views
2

我期待用Spark實現多標籤分類算法和多輸出,但我很驚訝Spark機器學習庫中沒有任何模型可以做到這一點。Spark多標籤分類

我如何用Spark做到這一點?

否則Scikit學習Logistic Regressionsion支持輸入/輸出中的多標籤分類,但不支持大量的培訓數據。

以查看scikit學習代碼,請點擊以下鏈接: https://gist.github.com/mkbouaziz/5bdb463c99ba9da317a1495d4635d0fc

+0

[Spark多類分類示例](http://stackoverflow.com/q/32029314) – zero323

回答

0

此外,在星火存在是支持基於API documentation多標記分類Logistic迴歸。另請參閱this

scikitlearn針對大量訓練數據的問題將通過Spark使用適當的Spark配置消失。

另一種方法是對您的問題所在的每個標籤使用二元分類器,並通過對該標籤運行相關不相關的預測來獲得多標籤。您可以使用任何二進制分類器輕鬆地在Spark中執行此操作。

間接地,也可能有所幫助的是使用最近鄰居的多標籤分類,這也是state-of-the-art。一些最近的鄰居Spark擴展,例如Spark KNNSpark KNN graphs