從HDFS中讀取到Spark中

我正試圖從HDFS中將文件讀入Spark並對其執行一些數據處理。最初，我使用Sqoop將文件從MySQL數據庫傳輸到Spark。 SQL數據庫表有三列 - movieid，title和流派。我想知道如何格式化sc.textFile來正確拉取文件。從HDFS中讀取到Spark中

運行HDFS DFS -ls，我看到：

drwxr-xr-x - hduser1 supergroup   0 2017-03-20 23:51 movies

運行HDFS DFS -ls電影，我看到：

-rw-r--r-- 1 hduser1 supergroup   0 2017-03-20 23:51 movies/_SUCCESS 
-rw-r--r-- 1 hduser1 supergroup  1290474 2017-03-20 23:51 movies/part-m-0000

什麼，我試圖找出是什麼會去的以下功能：

case class Movie(movieid: String, title: String, genres: String) 
val movieRdd: RDD[Movie] = sc.textFile(***WHAT GOES HERE***).map(-formatting-)

2017-03-21 mongolol

試試這個：'sc.textFile（「/電影」）' –

您可以在下面的格式代碼：

sc.textFile(hdfs://NamenodeIPAddress:Port/DirectoryLocation) 

example: sc.textFile(hdfs://127.0.0.1:8020/user/movies)

請根據您的位置更改您的名稱節點IP地址和路徑的IP地址。

希望這可以幫助!!! ...

來源

2017-03-22 04:07:49 Bhavesh

欣賞響應！結束了必須在本地主機上使用端口54310，但它的工作完美。謝謝。 – mongolol

歡迎您!!! ... :) – Bhavesh

回答