我有一個具有兩列的火花數據幀將數據添加到現有的Apache火花數據框:姓名,年齡如下:從CSV文件
[Row(name=u'Alice', age=2), Row(name=u'Bob', age=5)]
數據幀是使用創建
sqlContext.createDataFrame()
接下來我需要做的是從外部'csv'文件添加第三列'UserId'。外部文件有幾個專欄,但我需要只包括第一列,這是「用戶ID」:
記錄在兩個數據源的數量是一樣的。我在Windows操作系統上使用獨立的pyspark版本。最終結果應該是一個包含三列的新數據框:UserId,Name,Age。
有什麼建議嗎?