2016-05-05 31 views
0

我想保存的文本文件在HDFS與星火內容:異常線程「main」產生java.io.IOException:不完全HDFS URI,沒有主持人:HDFS星火RDD

import org.apache.spark.{SparkContext, SparkConf} 

    object FormatTlfHdfs { def main(args : Array[String]) { 
    val conf = new SparkConf().setAppName("Clean data") 
        .setMaster("local").setSparkHome("/usr/lib/spark") 

    val sc = new SparkContext(conf) 

    var vertices = sc.textFile("hdfs:///user/cloudera/dstlf.txt").flatMap{ 
     line => line.split("\\s+") }.distinct() 

我「M收到錯誤:

異常在線程 「主」 java.io.IOException的:不完全HDFS URI, 沒有主機:HDFS:///用戶/ Cloudera的/元數據查對TLF

個做HDFS DFS -ls看起來這是正確的

[email protected] grafoTelefonos]$ hdfs dfs -ls /user/cloudera 
Found 6 items 
drwx------ - cloudera cloudera   0 2016-02-04 18:37 /user/cloudera/.Trash 
drwxr-xr-x - cloudera cloudera   0 2016-05-02 13:38 /user/cloudera/.sparkStaging 
-rw-r--r-- 1 cloudera cloudera  1294 2016-05-02 13:34 /user/cloudera /dstlf.txt 

回答

2

錯誤似乎是顯而易見的......

不完整的HDFS URI,沒有主持人:HDFS:///用戶/ Cloudera的/元數據查找,TLF

沒有指定像

hdfs://quickstart:<hdfs_port>/user/cloudera... 

一臺主機,您可能不需要<hdfs_port>一塊,但它並沒有傷害。我認爲正確的端口是8020,那麼你會有

hdfs://quickstart:8020/user/cloudera... 
相關問題