如果在Pyspark
中有任何方法使用Scala
類,我一直在尋找一段時間,而且我還沒有找到關於此主題的任何文檔和指南。如何在Pyspark中使用Scala類
比方說,我創建Scala
一個簡單的類,它使用的apache-spark
一些圖書館,是這樣的:
class SimpleClass(sqlContext: SQLContext, df: DataFrame, column: String) {
def exe(): DataFrame = {
import sqlContext.implicits._
df.select(col(column))
}
}
- 是否有
Pyspark
使用這個類的任何可能的方式是什麼? - 太難了嗎?
- 我必須創建
.py
文件嗎? - 有沒有任何指導說明如何做到這一點?
順便說一句,我也看了spark
代碼,我覺得有點失落,而且我無法爲自己的目的複製它們的功能。