2

我是Spark新手。 我可以在Spark中加載.json文件。如果文件夾中有數千個.json文件會怎麼樣? picture of .json files in the folder如何使用Spark加載JSON(保存在csv中的路徑)?

而且我有一個csv文件,它用標籤對.json文件進行分類。 picture of csv file

如果我想加載和保存數據,我應該如何處理Spark(例如,我想在csv中加載第一個信息,但它是文本信息,但它提供了.json的路徑,我想加載以.json,然後保存輸出,所以我會知道的第一可信標籤圖形的JSON信息)

回答

1

對於JSON:。

jsonRDD = sql_context.read.json("path/to/json_folder/"); 

對於CSV安裝spark-csv從這裏Databricks' spark-csv

csvRDD = sql_context.read.load("path/to/csv_folder/",format='com.databricks.spark.csv',header='true',inferSchema='true') 
+0

謝謝。另一個問題。我怎樣才能讓數千個.json平行工作?地圖和減少? – Fengyu

+1

另外,請注意,從2.0.0開始解析csv將是Spark本身的一部分,您不必再依賴spark-csv了。 – BenFradet

相關問題