在Spark中,可以設置一些hadoop配置設置,例如,在spark中設置textinputformat.record.delimiter
System.setProperty("spark.hadoop.dfs.replication", "1")
這工作,複製因子被設置爲1 假設是這樣的話,我認爲這種模式(在前面加上「spark.hadoop。」正規的Hadoop配置屬性),也將工作對於 textinputformat.record.delimiter:
System.setProperty("spark.hadoop.textinputformat.record.delimiter", "\n\n")
然而,似乎只是火花忽略此設置。 我是否以正確的方式設置了textinputformat.record.delimiter
? 有沒有更簡單的方法來設置textinputformat.record.delimiter
。我想避免寫我自己的InputFormat
,因爲我真的只需要獲取由兩條換行符分隔的記錄。
你使用的是什麼版本的hadoop? – Noah
我在Hadoop 1/CDH3上使用spark-0.7.2的預建版本(請參閱[這裏](http://spark-project.org/downloads/))。我非常確定它實際上是用hadoop 1.0.4構建的 – ptikobj
我不確定它是否在該版本的hadoop中,您可能必須重新編譯爲支持所需內容的版本:https://問題.apache.org/jira/browse/HADOOP-7096 – Noah