2016-08-25 54 views
0

我目前正試圖在Google DataProc上的Spark 2.0.0上的大型數據集(30 mio觀察值,13個變量)上運行ml決策樹。 當我執行:IllegalArgumentException:u'requirement失敗:在谷歌DataProc Spark上無效的初始容量'

labelIndexer = StringIndexer(inputCol="Target", outputCol="indexedLabel").fit(data) 

我收到以下錯誤:

IllegalArgumentException: u'requirement failed: Invalid initial capacity'

我沒有找到在互聯網上這個錯誤了很多信息。有人可以解釋一下問題是什麼以及我如何解決它?

回答

1

錯誤是由於輸入數據幀(數據)已定義但爲空的事實。