爲什麼pyspark中的datafram的最大值不正確？

我有一個datafram命名爲訂單，從csv文件加載，而days_since_prior_order列有一些空白值。爲什麼pyspark中的datafram的最大值不正確？

orders = spark.read.csv("/Users/yanan.chen/Downloads/instacart/orders.csv",header=True) 
orders.createOrReplaceTempView("orders") 
spark.sql("select * from orders limit 30").show() 

+--------+-------+--------+------------+---------+-----------------+----------------------+ 
|order_id|user_id|eval_set|order_number|order_dow|order_hour_of_day|days_since_prior_order| 
+--------+-------+--------+------------+---------+-----------------+----------------------+ 
| 2539329|  1| prior|   1|  2|    08|      | 
| 2398795|  1| prior|   2|  3|    07|     15.0| 
| 473747|  1| prior|   3|  3|    12|     21.0| 
| 2254736|  1| prior|   4|  4|    07|     29.0| 
| 431534|  1| prior|   5|  4|    15|     28.0| 
| 3367565|  1| prior|   6|  2|    07|     19.0| 
| 550135|  1| prior|   7|  1|    09|     20.0| 
| 3108588|  1| prior|   8|  1|    14|     14.0| 
| 2295261|  1| prior|   9|  1|    16|     0.0| 
| 2550362|  1| prior|   10|  4|    08|     30.0| 
| 1187899|  1| train|   11|  4|    08|     14.0| 
| 2168274|  2| prior|   1|  2|    11|      | 
| 1501582|  2| prior|   2|  5|    10|     10.0| 
| 1901567|  2| prior|   3|  1|    10|     3.0| 
| 738281|  2| prior|   4|  2|    10|     8.0| 
| 1673511|  2| prior|   5|  3|    11|     8.0| 
| 1199898|  2| prior|   6|  2|    09|     13.0| 
| 3194192|  2| prior|   7|  2|    12|     14.0| 
| 788338|  2| prior|   8|  1|    15|     27.0| 
| 1718559|  2| prior|   9|  2|    09|     8.0| 
+--------+-------+--------+------------+---------+-----------------+----------------------+

正如你所看到的，days_since_prior_order中有一些空白，其實就是''。 spark.sql("select * from orders where days_since_prior_order <> '' ").show()

+--------+-------+--------+------------+---------+-----------------+----------------------+ 
|order_id|user_id|eval_set|order_number|order_dow|order_hour_of_day|days_since_prior_order| 
+--------+-------+--------+------------+---------+-----------------+----------------------+ 
| 2398795|  1| prior|   2|  3|    07|     15.0| 
| 473747|  1| prior|   3|  3|    12|     21.0| 
| 2254736|  1| prior|   4|  4|    07|     29.0| 
| 431534|  1| prior|   5|  4|    15|     28.0| 
| 3367565|  1| prior|   6|  2|    07|     19.0| 
| 550135|  1| prior|   7|  1|    09|     20.0| 
| 3108588|  1| prior|   8|  1|    14|     14.0| 
| 2295261|  1| prior|   9|  1|    16|     0.0| 
| 2550362|  1| prior|   10|  4|    08|     30.0| 
| 1187899|  1| train|   11|  4|    08|     14.0| 
| 1501582|  2| prior|   2|  5|    10|     10.0| 
| 1901567|  2| prior|   3|  1|    10|     3.0| 
| 738281|  2| prior|   4|  2|    10|     8.0| 
| 1673511|  2| prior|   5|  3|    11|     8.0| 
| 1199898|  2| prior|   6|  2|    09|     13.0| 
| 3194192|  2| prior|   7|  2|    12|     14.0| 
| 788338|  2| prior|   8|  1|    15|     27.0| 
| 1718559|  2| prior|   9|  2|    09|     8.0| 
| 1447487|  2| prior|   10|  1|    11|     6.0| 
| 1402090|  2| prior|   11|  1|    10|     30.0| 
+--------+-------+--------+------------+---------+-----------------+----------------------+

但是，是什麼讓我感到困惑的是，當我EXCUTE spark.sql("select min(days_since_prior_order), max(days_since_prior_order) from orders where days_since_prior_order <> '' ").show()中產生的最大值是不正確的。

+---------------------------+---------------------------+ 
|min(days_since_prior_order)|max(days_since_prior_order)| 
+---------------------------+---------------------------+ 
|      0.0|      9.0| 
+---------------------------+---------------------------+

我的代碼有什麼問題？

來源

2017-05-22 yanachen

所有字段的類型是字符串。 – yanachen

'9.0'> '30 .0'字符串類型 –

您需要將字符串的列轉換爲數字類型。這樣做：

from pyspark.sql.functions import col 
orders = orders.withColumn('days_since_prior_order', 
     col('days_since_prior_order').cast('double'))

然後你會得到正確的結果。

另一種方法是使用UDF（用戶自定義函數，但是當我們進行簡單的原因複雜。）

來源

2017-05-22 14:01:19

您是否知道如何以days_since_prior_order的順序顯示訂單df，該訂單已被轉換爲整數？我只是顯示（）它買10是在2的前面，而10是在1之後。 – yanachen

不知道我很好理解你的問題，但是如果你想要值的順序，你可以通過做df.groupBy（'days_since_prior_order' ）.Count之間的（）。節目（） –

爲什麼pyspark中的datafram的最大值不正確？

回答

相關問題