如何使用Spark/Scala來計算文件中的所有字符?下面是我在火花外殼上做的事情:使用Spark/scala計算文件中的所有字符?
scala> val logFile = sc.textFile("ClasspathLength.txt")
scala> val counts = logFile.flatMap(line=>line.split("").map(char=>(char,1))).reduceByKey(_ + _)
scala> println(counts.count())
scala> 62
我在這裏得到不正確的計數。有人可以幫我解決這個問題嗎?
什麼是你想實現 - 你試圖讓(1)在文件中字符的總數;或(2)_distinct_字符的數量;或(3)每個不同字符在文件中出現的次數? –
我只需要文件中的全部字符。 – dganesh2002