我剛開始使用Apache Spark(在Scala中,但語言無關緊要)。我正在使用獨立模式,我想從本地文件系統(因此沒有像HDFS那樣分佈)處理文本文件。Spark:如何使用本地文件系統的SparkContext.textFile
按照textFile
方法從SparkContext
的文件,它會
閱讀從HDFS,本地文件系統(所有 節點上可用),或任何Hadoop的支持的文件系統URI的文本文件,並將其作爲字符串的RDD返回爲 。
我還不清楚的是,如果整個文本文件只能被複制到所有的節點,或者輸入的數據應該已經被分區,如果使用4個節點和1000行csv文件,則每個節點上有250行。
我懷疑每個節點應該有整個文件,但我不確定。
沒有提供參考,但假設這是正確的,因爲您的repuation和expierence。謝謝! – herman
謝謝!這是我的想法,但我相信在這種情況下。無論如何 - 請讓我知道你是否有問題。 –
從[外部數據集編程指南](http://spark.apache.org/docs/1.2.1/programming-guide.html#external-datasets): 如果在本地文件系統上使用路徑,則文件還必須在工作節點上的相同路徑上可訪問。將文件複製到所有工作人員或使用網絡安裝的共享文件系統._ – Tobber