2017-02-08 112 views
0

我有一個沒有任何標籤/標題的大於4k列的pyspark df。根據列值,我需要對每列應用特定的操作。如何處理pyspark數據幀列

我使用熊貓做了同樣的事情,但我不想使用熊貓,並希望將明智的列轉換直接應用於火花數據幀。 任何想法,我如何應用列智慧轉換,如果df有> 4k列沒有任何label.also我不想在特定的df列索引上應用轉換。

回答

0

根據Spark文檔,數據框包含 - 不像您所說的 - 標題,非常像數據庫表。

在任何情況下,一個簡單的for循環應該做的伎倆:

for column in spark_dataframe.columns: 
    (do whatever you want to do with your columns) 
+0

好吧,假設當我遍歷每個專欄中,我做的列值的正則表達式檢查,如果再匹配我想更新。在熊貓我做類似df.iloc [:,i] = df.iloc [:,i] .apply(lambda x:x.split()[0])。我怎麼能在火花df –

+0

@occasionalvisitor之前從未使用iloc。檢查此鏈接[鏈接](http://stackoverflow.com/questions/37487170/spark-dataframe-equivalent-to-pandas-dataframe-iloc-method) –