2016-05-13 42 views
-1
JavaRDD<String> input = sc.textFile("data.txt"); 

對於Spark中的上述示例代碼,我知道它返回字符串的分佈式列表。但是,該列表中的單個字符串是lineword令牌的data.txt?spark sc.textFile是如何工作的?

回答

1

rdd中的字符串等於data.txt中的一行。

如果data.txt文件中的數據是某種類型的csv數據,則可以使用spark-csv軟件包,該軟件包將數據分爲多列,因此您不必親自分析這些行。