如何處理pyspark數據幀列

我有一個沒有任何標籤/標題的大於4k列的pyspark df。根據列值，我需要對每列應用特定的操作。如何處理pyspark數據幀列

我使用熊貓做了同樣的事情，但我不想使用熊貓，並希望將明智的列轉換直接應用於火花數據幀。任何想法，我如何應用列智慧轉換，如果df有> 4k列沒有任何label.also我不想在特定的df列索引上應用轉換。

根據Spark文檔，數據框包含 - 不像您所說的 - 標題，非常像數據庫表。

在任何情況下，一個簡單的for循環應該做的伎倆：

for column in spark_dataframe.columns: 
    (do whatever you want to do with your columns)

2017-02-08 08:50:27

好吧，假設當我遍歷每個專欄中，我做的列值的正則表達式檢查，如果再匹配我想更新。在熊貓我做類似df.iloc [：，i] = df.iloc [：，i] .apply（lambda x：x.split（）[0]）。我怎麼能在火花df –

@occasionalvisitor之前從未使用iloc。檢查此鏈接[鏈接]（http://stackoverflow.com/questions/37487170/spark-dataframe-equivalent-to-pandas-dataframe-iloc-method） –

回答