2017-03-21 55 views
0

我正試圖從HDFS中將文件讀入Spark並對其執行一些數據處理。最初,我使用Sqoop將文件從MySQL數據庫傳輸到Spark。 SQL數據庫表有三列 - movieid,title和流派。我想知道如何格式化sc.textFile來正確拉取文件。從HDFS中讀取到Spark中

運行HDFS DFS -ls,我看到:

drwxr-xr-x - hduser1 supergroup   0 2017-03-20 23:51 movies 

運行HDFS DFS -ls電影,我看到:

-rw-r--r-- 1 hduser1 supergroup   0 2017-03-20 23:51 movies/_SUCCESS 
-rw-r--r-- 1 hduser1 supergroup  1290474 2017-03-20 23:51 movies/part-m-0000 

什麼,我試圖找出是什麼會去的以下功能:

case class Movie(movieid: String, title: String, genres: String) 
val movieRdd: RDD[Movie] = sc.textFile(***WHAT GOES HERE***).map(-formatting-) 
+2

試試這個:'sc.textFile( 「/電影」)' –

回答

1

您可以在下面的格式代碼:

sc.textFile(hdfs://NamenodeIPAddress:Port/DirectoryLocation) 

example: sc.textFile(hdfs://127.0.0.1:8020/user/movies) 

請根據您的位置更改您的名稱節點IP地址和路徑的IP地址。

希望這可以幫助!!! ...

+0

欣賞響應!結束了必須在本地主機上使用端口54310,但它的工作完美。謝謝。 – mongolol

+0

歡迎您!!! ... :) – Bhavesh