我使用上Pyspark以下代碼導入從BigQuery資料:RDD JSON文件處理
table_data = sc.newAPIHadoopRDD(
'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat',
'org.apache.hadoop.io.LongWritable',
'com.google.gson.JsonObject',
conf=conf)
輸出是RDD框架,但具有在JSON格式數據:
[(0, u'{"colA":"Value1,Value4"}'), (52, u'{"colA":"Value2"}')]
我需要以RDD格式提取所有值。主要關注的是由此產生的RDD不應該包含每個記錄的雙引號。
要求:
Value1,Value4
Value2
,而不是:
"Value1,Value4"
"Value2"
你能告訴你的結果在一個有效的Python數據結構?你是否需要返回另一個rdd? – Psidom
我需要一個RDD,因爲我將使用MLlib來實現算法。 – Nivi
如果json被一個「,」分開,那麼它的返回類型將是'str'。你怎麼知道每個'Value'的類型,比如float,int,str等等? –