0
我正在使用SparkR來處理某些包含R和其技術堆棧中的spark的項目。使用SparkR向Spark數據框添加具有函數值的列
我必須創建新的列,其中包含從驗證函數返回的布爾值。我可以用火花dataframes容易做到這一點的工作,一個表情,如:
sdf1$result <- sdf1$value == sdf2$value
問題是,當我要比較兩個不同長度的dataframes。
使用函數操作sdf1
和sdf2
數據框並將值分配給sdf1
的新列的最佳方法是什麼?假設我想要生成一個最小長度在sdf1
和sdf2
之間的列。
像'sdf1 $ result < - sdf1 $ value == sdf2 $ value'這樣的邏輯操作對於長度不同的向量無效。你能舉個例子,你想做什麼? –