2016-09-28 139 views
0

是否可以將RDD [CassandraRow]轉換爲RDD [String]?如果是這樣,對轉換後的RDD有什麼不利之處?將RDD [CassandraRow]轉換爲RDD [String]

+1

使用'rdd.map'功能,您可以轉換爲另一種形式 – Shankar

+0

會有任何性能損失爲我的RDD將是巨大的? – BDR

+0

需要更多細節,爲什麼您要將一種形式的RDD轉換爲另一種形式,並且還要將RDD分佈在多個節點中。它旨在處理巨大的數據。 – Shankar

回答

0

您可以使用sqlContext從Cassandra表中讀取數據,它會返回一個DataFrame,並且當您使用sparkContext讀取文本文件時,它將返回RDD,然後您可以將其轉換爲DataFrame。

如果您的文本文件是CSV,Spark 2.0支持csv數據源,它會通過deafult返回一個DataFrame。請參閱本.. https://spark.apache.org/releases/spark-release-2-0-0.html#new-featureshttps://github.com/databricks/spark-csv/issues/

更新:

https://databricks.com/blog/2015/04/13/deep-dive-into-spark-sqls-catalyst-optimizer.html