1
我想將hiveQL查詢翻譯成pyspark。我正在篩選日期並獲得不同的結果,我想知道如何使pySpark中的行爲與Hive的行爲相匹配。蜂巢查詢:蜂巢pyspark日期比較
SELECT COUNT(zip_cd) FROM table WHERE dt >= '2012-01-01';
在pySpark我進入瞭解釋:
import pyspark.sql.functions as psf
import datetime as dt
hc = HiveContext(sc)
table_df = hc.table('table')
DateFrom = dt.datetime.strptime('2012-01-01', '%Y-%m-%d')
table_df.filter(psf.trim(table.dt) >= DateFrom).count()
我越來越相似,但不一樣的,在這兩個計數結果。有人知道這裏發生了什麼嗎?
啊,我明白了。謝謝! – crabmanbrian