我有兩個星火1.4.1 PipelineRDD(我不知道什麼樣的對象是:-s:星火 - 在特定領域加入JSON RDDS(鍵 - 值)
1)名單IDS(ids_alsaciens RDD)
2)的列表personne(personnes RDD)
在 'Personnes' RDD有4個字段,在JSON格式,關鍵是 「ID」。 我可能在這張表中有同一人的幾條線(id是相同的)
我想獲取'personnes'RDD上的'alsacien'表中包含的所有行。
我怎麼能這樣做在火花?
>type(ids_alsaciens)
pyspark.rdd.PipelinedRDD
>type(personnes)
pyspark.rdd.PipelinedRDD
>ids_alsaciens.take(10)
[u'1933992',
u'2705919',
u'2914684',
u'2915444',
u'11602833',
u'11801394',
u'10707371',
u'2018422',
u'2312432',
u'233375']
>personnes.take(3)
[{'date': '2013-06-03 00:00',
'field': 'WAID_INDIVIDU_WC_NUMNNI',
'id': '10000149',
'value': '2770278'},
{'date': '2013-05-15 00:00',
'field': 'WAID_INDIVIDU_WC_NUMNNI',
'id': '10009910',
'value': '2570631'},
{'date': '2013-03-01 00:00',
'field': 'WAID_INDIVIDU_WC_NUMNNI',
'id': '10014405',
'value': '1840288'}]
編輯
嘗試: personnes.filter(拉姆達X:X在ids_alsaciens)
了異常: 例外:看來您正在嘗試播放的RDD或引用RDD從行動或轉變。 RDD轉換和操作只能由驅動程序調用,而不能在其他轉換中調用;例如,rdd1.map(lambda x:rdd2.values.count()* x)無效,因爲值轉換和計數操作不能在rdd1.map轉換中執行。有關更多信息,請參閱SPARK-5063。
我沒有測試你的代碼,當我達到一個相當類似的方案謝謝:-) –
不客氣。 – Paul