計數我有一個填充爲如何在Word文本的唯一ID相關聯火花
id txt
1 A B C
2 A B C
1 A B C
我的字數(pyspark)的結果的RDD應該是有關聯的字符串和ID的組合它。例如:
[(u'1_A',2), (u'1_B',2), (u'1_C',2),(u'2_A',1),(u'2_B',1),(u'2_C',1)]
我試圖使用用戶定義函數來標識與來自文本串分割相結合。但是,它抱怨在這種情況下附加功能是不可用的。
欣賞任何代碼示例,這些代碼示例將使我朝着正確的方向前進。
源RDD是2列ID和txt元組?像這樣的東西'[(1,'A B C'),(2,'A B C'),(1,'A B C')]'? –