我有四個數據列的數據集。如何從Apache Spark(pyspark)中的數據集獲取某些列?
例:
a b c d
1, 2, 3, 4
...
使用pyspark,我怎麼能檢索a
列中的數據和b
只?我是新來的火花,並嘗試了很多東西,包括:
dataset = data_raw.filter(lambda line: line != dataset_header) \
.map(lambda line: line.split(", ", maxsplit=2)).take(1)
但是,這似乎並沒有給我所需的目標。我想要的是有列a
和b
並丟棄該數據集的其餘部分。任何幫助將非常感激。
嗨@Grr我剛剛試過你的建議,它只是打印出所有的數據。 – xn139
@ xn139我剛剛上傳了我的測試圖像。如果您可以提供更多關於如何加載數據的詳細信息,請使用RDD或DF等,這樣可以更輕鬆地提供幫助。 – Grr
@Grr嗨,我的數據是一個CSV文件 - 當我嘗試並行我的CSV文件,我得到這個:'類型錯誤:「RDD」對象不是iterable'我可以並行我的CSV文件並執行上述操作? – xn139