我在我的pyspark映射函數中添加了一個額外的操作。pyspark:在一個映射函數中多個操作的語法錯誤
原來的功能是:
results = input.map(lambda row:process_myData(row))
工作正常。然後我試圖增加額外的操作象下面這樣:
results = input.map{lambda row:
row1 = row.replace("abc","def")
process_myData(row1)}
然後我得到了下面的語法錯誤:
results = input.map{lambda row:
^
SyntaxError: invalid syntax
我幹了什麼錯在這裏做什麼?謝謝!
你的意思是:input.map(lambda行:f(row)),而不僅僅是input.map(f),對嗎?謝謝。 – Edamame
不,我的意思是'input.map(f)':)'RDD.map'接受一個函數作爲第一個參數,這正是它得到的。沒有理由用匿名函數進一步包裝它。 – zero323
所以lambda不需要明確指定?然後,可以將原始input.map(lambda行:process_myData(row))簡化爲input.map(process_myData)?非常感謝! – Edamame