2015-04-24 97 views

回答

0

晚了一點,但這裏是一個類似的例子 要保存RDD到HBase的:

考慮包含RDD一行:

{"id":3,"name":"Moony","color":"grey","description":"Monochrome kitty"} 

改造RDD
我們NEET將RDD轉換成具有以下內容的(鍵,值)對:

(rowkey,[行鍵,列族,列名,值])

datamap = rdd.map(lambda x: (str(json.loads(x)["id"]),[str(json.loads(x)["id"]),"cfamily","cats_json",x])) 

保存到HBase的
我們可以利用RDD.saveAsNewAPIHadoopDataset功能如本例中使用:PySpark Hbase example到RDD保存到HBase的 ?

datamap.saveAsNewAPIHadoopDataset(conf=conf,keyConverter=keyConv,valueConverter=valueConv) 

你可以參考我的博客:pyspark-sparkstreaming hbase的工作示例的完整代碼。