使用SparkR向Spark數據框添加具有函數值的列

我正在使用SparkR來處理某些包含R和其技術堆棧中的spark的項目。使用SparkR向Spark數據框添加具有函數值的列

我必須創建新的列，其中包含從驗證函數返回的布爾值。我可以用火花dataframes容易做到這一點的工作，一個表情，如：

sdf1$result <- sdf1$value == sdf2$value

問題是，當我要比較兩個不同長度的dataframes。

使用函數操作sdf1和sdf2數據框並將值分配給sdf1的新列的最佳方法是什麼？假設我想要生成一個最小長度在sdf1和sdf2之間的列。

2017-05-18 Enyert

像'sdf1 $ result < - sdf1 $ value == sdf2 $ value'這樣的邏輯操作對於長度不同的向量無效。你能舉個例子，你想做什麼？ –

如果您有不同長度的數據幀，我邏輯上假定您有一些列確定如何排列這兩個數據幀之間的值。您必須在這些列上的兩個數據框之間執行連接（請參閱SparkR :: merge/SparkR :: join），然後執行比較操作以在結果數據框中創建新列。

2017-05-21 09:36:49 devlace

回答