我正在使用pyspark。我已經加載了.csv
文件並將其轉換爲行。 之後,我選擇了一些列的,並把它們納入NumericalElementsRDD
:基於現有的在rdd中創建列
NumericalElementsRDD = elementsRDD.map(lambda p: Row(g1=int(p[30]), g2=int(p[31]), g3=int(p[32])))
的問題是,我需要創建另一列,讓我們稱之爲success_fail
。它背後的邏輯是:success_fail values 1 if p[32] >= 10 else 0
我試圖做它在elementsRDD.map表達式中插入另一個lambda,但它沒有奏效。
你能幫我完成這個任務嗎?
謝謝。但是我必須在創建DF之前插入列。 –