1
我是學習火花的初學者。我正在閱讀一本書「學習火花霍爾登卡勞,安迪Konwinski,帕特里克溫德爾& Matei Zaharia」。輸入路徑不存在錯誤apache spark
在這本書中的Python代碼給出一個例子
>>> lines = sc.textFile("README.md") # Create an RDD called lines
>>> lines.count() # Count the number of items in this RDD
127
>>> lines.first() # First item in this RDD, i.e. first line of README.md
u'# Apache Spark'
我想知道哪裏是文件「README.md」存在?因爲書中沒有提供任何信息。此外,每當我嘗試運行這段代碼有錯誤 「輸入路徑不存在:HDFS://quickstart.cloudera:8020 /用戶/ Cloudera公司/ README.md」
我上Codera運行此代碼虛擬機工作站上的火花虛擬機。
您需要提供該文件的正確路徑。這個例子適用於下載Spark代碼併爲其自身構建的情況,那麼您將在同一個文件夾中找到README。所以你可以做的是在那裏放置一個文本文件和一些數據,然後提供你所提供的路徑!該文件應該出現在路徑:hdfs://quickstart.cloudera:8020/user/cloudera/filename –
@ShivanshSrivastava感謝您的迴應。你能告訴我我可以訪問路徑:hdfs://quickstart.cloudera:8020/user/cloudera/filename來放置文件嗎? –