我正在爲配置單元表中的數據集構建模式。如何在Hive表中爲數據集創建模式?
處理之後我必須寫入數據到S3。
我需要根據日期附加json圖像格式重新組織和分組用戶id交互準備。
爲了構建這個模式,我準備了一個帶有數組的結構類型。
fields = [
StructField("expUserId", StringType(), True),
StructField("recordDate", StringType(), True),
StructField("siteId", StringType(), True),
StructField("siteName", StringType(), True),
StructField("itineraryNumber", StringType(), True),
StructField("travelStartDate", StringType(), True),
StructField("travelEndDate", StringType(), True),
StructField("destinationID", StringType(), True),
StructField("lineOfBusiness", StringType(), True),
StructField("pageViewMap", MapType(StringType(),ArrayType(StructType([
StructField("PageId", StringType(), True),
StructField("count", LongType(), True)]))), True)
]
schema = StructType(fields)
return schema
該模式是否正確?如何將DataFrame轉換爲下面的json模式類型。
請問您可以替換截圖並使用原始文本進行復制。這將會更容易給你一些關於如何處理數據集的額外提示。謝謝! –