回答
可以使用SQLContext
對象調用createDataFrame
方法,該方法的輸入data
其可以任選地是熊貓DataFrame
對象。
我知道這個選項。但試圖查看是否有一種直接的方式將DF轉換爲RDD而不創建schemaRDD。 –
'schemaRDD'已被Spark 1.3中的DataFrames所取代。如果你不想讓你的RDD元素成爲'Row'實例,調用'df.rdd.map(lambda x:[e for e in x])'。雖然我真的不明白你爲什麼要這麼做。你想要保存什麼格式? – karlson
計劃是從NFS中讀取csv文件,並在使用panda df進行處理後,將其交換爲spark rdd並將其寫爲hdfs中的avro/parquet文件。此外,是否支持DF支持熊貓DF目前支持的所有功能? –
比方說dataframe
的類型是pandas.core.frame.DataFrame的再火花2.1 - Pyspark我這樣做
rdd_data = spark.createDataFrame(dataframe)\
.rdd
在情況下,如果要重命名的列或只選擇幾列,你在使用之前做他們.rdd
希望它也適用於你。
我使用Spark 1.6.0。首先將熊貓數據幀轉換爲火花數據幀,然後火花數據幀火花rdd
sparkDF = sqlContext.createDataFrame(pandasDF)
sparkRDD = sparkDF.rdd.map(list)
type(sparkRDD)
pyspark.rdd.PipelinedRDD
- 1. 將火花rdd轉換爲熊貓數據幀
- 2. 將熊貓數據框轉換爲zeppelin中的火花數據框
- 3. 熊貓數據框到RDD
- 4. 我怎麼火花數據幀轉換爲RDD並獲得話
- 5. 火花數據幀轉換爲rdd需要很長時間
- 6. 我如何將字典轉換爲熊貓數據框
- 7. 熊貓 - 如何將r數據框轉換回熊貓?
- 8. 將數據轉換爲熊貓缺失
- 9. 將熊貓數據幀轉換爲csv
- 10. 將熊貓數據框轉換爲橙色數據表
- 11. 將IbPy數據請求轉換爲熊貓數據框
- 12. 熊貓可以將DataFrame轉換爲Series嗎?
- 13. 如何將矩陣轉換爲火花中的RDD [矢量]
- 14. 如何將火花RDD轉換爲mahout DRM?
- 15. 將嵌套數組轉換爲python中的熊貓數據框
- 16. 如何將列名稱數組轉換爲熊貓數據框?
- 17. 將指數轉換爲相應的熊貓數據框的值
- 18. 將熊貓數據框轉換爲numpy數組,保留索引
- 19. 如何將一個numpy數組轉換爲熊貓數據框
- 20. 如何將numpy數組轉換爲熊貓數據框?
- 21. 熊貓數據框:將整數轉換爲hh:mm
- 22. Python將大型numpy數組轉換爲熊貓數據框
- 23. 我的熊貓數據框輸出可以繪製成圖嗎?
- 24. 如何將熊貓數據框轉換爲Morris數據集以進行引導
- 25. 在斯卡拉轉換火花數據幀到RDD
- 26. 如何轉換卡夫卡流火花RDD或Spark數據幀
- 27. 如何轉換此熊貓數據框?
- 28. Python將逗號分隔列表轉換爲熊貓數據框
- 29. 將熊貓數據框轉換爲JSON格式
- 30. 將熊貓羣組合並轉換爲多索引數據框
爲什麼不直接將本地文件讀入Spark數據框? – karlson
正如我所說的,我想在使用spark將它寫入HDFS之前使用熊貓DF來操作數據。不知道火花數據幀是否支持熊貓數據框支持的所有功能 –