2016-10-17 178 views
1

我寫它連接爲一個大表10個的查找表,然後使用df.when條款確實對錶中的一些改造一個PySpark應用。爲每個查找表定義df並加入它們佔用腳本中的大部分行。我如何測試這個?我是否對每個查找表和最終表使用sc.parallize並檢查轉換?你通常如何單元測試火花應用程序?PySpark單元測試方法

+0

你檢查,[這](http://stackoverflow.com/questions/33811882/how-do-i-unit-test-pyspark-programs?rq=1)? – ShuaiYuan

回答

1

shuaiyuan的評論是好的,你應該使用像py.test現有框架在Python測試。爲了更直接地回答這個問題的DataFrames,我建議你不要使用sc.parallelize,而是使用spark.createDataFrame實例要傳遞給你的函數的數據幀。然後,你可以調用輸出df.collect()並斷言在輸出的行數是您期望,以及對列中的值。