1
我想使用spark shell從HDFS加入兩個文件。 這兩個文件是製表符分隔,我想加入的第二列在Spark中加入兩個HDFS文件
試過代碼 但不給任何輸出
val ny_daily= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock /NYSE_daily"))
val ny_daily_split = ny_daily.map(line =>line.split('\t'))
val enKeyValuePair = ny_daily_split.map(line => (line(0).substring(0, 5), line(3).toInt))
val ny_dividend= sc.parallelize(List("hdfs://localhost:8020/user/user/NYstock/NYSE_dividends"))
val ny_dividend_split = ny_dividend.map(line =>line.split('\t'))
val enKeyValuePair1 = ny_dividend_split.map(line => (line(0).substring(0, 4), line(3).toInt))
enKeyValuePair1.join(enKeyValuePair)
但我沒有得到有關如何加入對特定列 文件的任何信息請建議
什麼我應該把JOIN的關鍵和價值,因爲我想加入列和作爲輸出我應該能夠看到整個加入數據集 –
然後改變你的'地圖'功能''ny_daily_split.map(line =>線(1) - > line.mkString(「\ t」))''和'ny_dividend_split.map(line => line(1) - > line.mkString(「\ t」))''。 – fedragon