我知道我的問題類似於Merge Output files after reduce phase,但我認爲它可能會不同,因爲我僅使用Spark而不是實際上是分佈式文件系統。將Spark的輸出合併到一個文件中
我在單個VM上安裝了Spark(用於測試)。輸出在Home/Spark_Hadoop/spark-1.1.1-bin-cdh4 /中的一個名爲'STjoin'的文件夾中有幾個文件(part-000000,part-000001等)給出。
命令hadoop fs -getmerge /Spark_Hadoop/spark-1.1.1-bin-cdh4/STjoin /desired/local/output/file.txt
似乎不工作(「沒有這樣的文件或董事」)
這是因爲該命令只適用於存儲在HDFS文件,而不是在本地,還是我不理解在一般的Linux地址? (我對Linux和HDFS都是新手)
源目錄是本地還是HDFS? – frb
這是本地的,而不是HDFS –
在這種情況下,只需執行'cat/path/to/source/dir/*>/path/to/output/file.txt'。 'getmerge'是HDFS專用文件的Hadoop版本。 – frb