2016-06-27 40 views
1

在scala中,我可以執行get(#)getAs[Type](#)以從數據框中獲取值。但我應該怎麼做在pyspark;我有一個DataFrame有兩列item(string)salesNum(integers)。我做了groupbymean得到這些數字的意思是像這樣的:從數據框中獲取值

saleDF.groupBy("salesNum").mean()).collect()

和它的作品,我也平均在一個值的數據幀。我怎樣才能得到我們的數據框的價值,以獲得浮點數的平均值?

回答

3

collect()將結果作爲python列表返回。要獲得價值了,你只需要採取的第一個元素是這樣的名單:

saleDF.groupBy("salesNum").mean()).collect()[0] 
+0

感謝,並在RDD的情況下,它是一個二維的列表,以便我可以使用[0] [0]? –

+0

在ipython中開發不會讓我遍歷代碼,所以我可以通過進入源代碼或類似ide提供的東西來了解更多信息。 –