2016-06-22 112 views
0

我想將phantk數據框中的列拆分爲值。所以我分開,我想拆分列,並檢查它的類型:使用映射函數將Spark Dataframe轉換爲RDD

I: type(TopicModelVectorSplit) 
O: pyspark.sql.dataframe.DataFrame 

當我分裂使用字符串:

TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()) 

將其轉換爲pipilined RDD,而這些都是不可能的工作。

I: type(TopicModelVectorSplit) 
O: pyspark.rdd.PipelinedRDD 

如何分割此列並仍然保持數據框屬性不變?

萬分感謝

回答

0

您可以隨時將其轉換回使用.toDF一個數據幀,但RDD是不可能的工作,你不妨細你想保持它這樣。

Split = TopicModelVector.select('TopicModelVector').map(lambda line: line.text.split()).toDF 
相關問題