2017-05-18 36 views
0

我正在使用SparkR來處理某些包含R和其技術堆棧中的spark的項目。使用SparkR向Spark數據框添加具有函數值的列

我必須創建新的列,其中包含從驗證函數返回的布爾值。我可以用火花dataframes容易做到這一點的工作,一個表情,如:

sdf1$result <- sdf1$value == sdf2$value 

問題是,當我要比較兩個不同長度的dataframes。

使用函數操作sdf1sdf2數據框並將值分配給sdf1的新列的最佳方法是什麼?假設我想要生成一個最小長度在sdf1sdf2之間的列。

+0

像'sdf1 $ result < - sdf1 $ value == sdf2 $ value'這樣的邏輯操作對於長度不同的向量無效。你能舉個例子,你想做什麼? –

回答

0

如果您有不同長度的數據幀,我邏輯上假定您有一些列確定如何排列這兩個數據幀之間的值。您必須在這些列上的兩個數據框之間執行連接(請參閱SparkR :: merge/SparkR :: join),然後執行比較操作以在結果數據框中創建新列。

相關問題