0
我是一個新手,函數式編程語言,我努力學習火花斯卡拉 的目標是按主題劃分的RDF datset 的代碼如下:按主題火花階Partitionning的RDF數據集
object SimpleApp {
def main(args: Array[String]): Unit = {
val sparkConf =
new SparkConf().
setAppName("SimpleApp").
setMaster("local[2]").
set("spark.executor.memory", "1g")
val sc = new SparkContext(sparkConf)
val data = sc.textFile("/home/hduser/Bureau/11.txt")
val subject = data.map(_.split("\\s+")(0)).distinct.collect
}
}
所以我得到恢復主題,但它返回一個字符串數組也mapPartitions(func)和mapPartitionsWithIndex(func):func需要迭代器 那麼我該如何繼續?
你能添加您的輸入文件的樣本和它生成的輸出? – jsdeveloper
我的輸入文件是Ntriples格式的rdf數據集:對於每行我們都有主題,對象和謂詞以及它生成的輸出:HashPartitioner無法對數組鍵進行分區。 – Marry
如果解決了您的問題,請將答案標記爲正確 – jsdeveloper