0
我有groupBy
爲DataFrame
它基於3列。我做這樣的事情:火花:組通過條件
myDf.groupBy($"col1", $"col2", $"col3")
反正我不知道這是如何工作。
它是否管理忽略情況?我需要每個列"FOO"
和"foo"
被認爲是相同的像「」和null。
如果這不是假定的工作模式,我可以如何添加它?從API文檔中,我可以在列上看到apply
,但我找不到任何示例。
有什麼想法?
你能更準確?這並不完全清楚你想要什麼以及它與分組有什麼關係。 – zero323
現在還不確定。我停下來使用Dataframe,而我僅使用RDD。我只用50分鐘完成相同的事情,而不是20小時。所以在這一點上我不確定是否繼續使用groupBy。 – Randomize