我有一個由7-8個字段組成的數據集,這些字段的類型是String,Int & Float。Spark - 使用不同數據類型以編程方式創建模式
我試圖用它來創建通過編程的方式架構:
val schema = StructType(header.split(",").map(column => StructField(column, StringType, true)))
然後通過映射它排樣型:
val dataRdd = datafile.filter(x => x!=header).map(x => x.split(",")).map(col => Row(col(0).trim, col(1).toInt, col(2).toFloat, col(3), col(4) ,col(5), col(6), col(7), col(8)))
但是,創造數據幀後,當我使用DF.show( )它給整數字段錯誤。
那麼如何創建這樣的模式,我們在數據集中
但是標題字符串不是這樣,數據就像 'dfs8768768,65,76.34,234,dfgdg,34.65 dfs8768768,65,76.34,234,dfgdg,34.65' – AJm
然後就不可能從標題中知道數據的類型,因爲它沒有提供。 – elghoto
這是標題的確切數據: '拍賣,競價,bidtime,投標人,bidderrate,openbid,價格,項目,daystolive 8213034715,15,12.373,baman,3,12,20,book1,5 8213034725, 65,21.33,thmpu,2,64,75,watch1,9 8213034735,85,23.3,lovekush,4,45,90,remote1,10 8213034745,115,44.44,jaipanee,3,111,130,s3phone,4' – AJm