0
我目前正試圖在Google DataProc上的Spark 2.0.0上的大型數據集(30 mio觀察值,13個變量)上運行ml決策樹。 當我執行:IllegalArgumentException:u'requirement失敗:在谷歌DataProc Spark上無效的初始容量'
labelIndexer = StringIndexer(inputCol="Target", outputCol="indexedLabel").fit(data)
我收到以下錯誤:
IllegalArgumentException: u'requirement failed: Invalid initial capacity'
我沒有找到在互聯網上這個錯誤了很多信息。有人可以解釋一下問題是什麼以及我如何解決它?