2017-01-12 59 views
1

我是學習火花的初學者。我正在閱讀一本書「學習火花霍爾登卡勞,安迪Konwinski,帕特里克溫德爾& Matei Zaharia」。輸入路徑不存在錯誤apache spark

在這本書中的Python代碼給出一個例子

>>> lines = sc.textFile("README.md") # Create an RDD called lines 
>>> lines.count() # Count the number of items in this RDD 
127 
>>> lines.first() # First item in this RDD, i.e. first line of README.md 
u'# Apache Spark' 

我想知道哪裏是文件「README.md」存在?因爲書中沒有提供任何信息。此外,每當我嘗試運行這段代碼有錯誤 「輸入路徑不存在:HDFS://quickstart.cloudera:8020 /用戶/ Cloudera公司/ README.md」

我上Codera運行此代碼虛擬機工作站上的火花虛擬機。

+0

您需要提供該文件的正確路徑。這個例子適用於下載Spark代碼併爲其自身構建的情況,那麼您將在同一個文件夾中找到README。所以你可以做的是在那裏放置一個文本文件和一些數據,然後提供你所提供的路徑!該文件應該出現在路徑:hdfs://quickstart.cloudera:8020/user/cloudera/filename –

+0

@ShivanshSrivastava感謝您的迴應。你能告訴我我可以訪問路徑:hdfs://quickstart.cloudera:8020/user/cloudera/filename來放置文件嗎? –

回答

1

由於我正在使用cloudera虛擬機進行火花掃描,因此文件README.md未出現在路徑「hdfs://quickstart.cloudera:8020/user/cloudera/README.md」中。現在,我已經使用

lines = sc.textFile("file:///home/cloudera/Desktop/README.md") 

星火將在路徑從本地文件系統訪問文件存在「/home/cloudera/Desktop/README.md」。

相關問題