我正試圖從HDFS中將文件讀入Spark並對其執行一些數據處理。最初,我使用Sqoop將文件從MySQL數據庫傳輸到Spark。 SQL數據庫表有三列 - movieid,title和流派。我想知道如何格式化sc.textFile來正確拉取文件。從HDFS中讀取到Spark中
運行HDFS DFS -ls,我看到:
drwxr-xr-x - hduser1 supergroup 0 2017-03-20 23:51 movies
運行HDFS DFS -ls電影,我看到:
-rw-r--r-- 1 hduser1 supergroup 0 2017-03-20 23:51 movies/_SUCCESS
-rw-r--r-- 1 hduser1 supergroup 1290474 2017-03-20 23:51 movies/part-m-0000
什麼,我試圖找出是什麼會去的以下功能:
case class Movie(movieid: String, title: String, genres: String)
val movieRdd: RDD[Movie] = sc.textFile(***WHAT GOES HERE***).map(-formatting-)
試試這個:'sc.textFile( 「/電影」)' –