我正在使用sparklyr
庫。在Spark中做計算(R)
我有一個變量,wtd
我複製到火花:
copy_to(sc,wtd)
colnames(wtd) <- c("a","b","c","d","e","f","g")
然後,我想做一個計算和存儲的火花,而不是在我的R.
當我試圖環境:
sdf_register(wtd %>% group_by(c,b) %>% filter(row_number()==1) %>%count(d), "wtd2")
錯誤UseMethod( 「sdf_register」): 沒有適用的方法對於「sdf_register」適用於類的對象「C(‘tbl_df’,‘TBL’,‘data.frame’)」
命令wtd2 = wtd %>% group_by(c,b) %>% filter(row_number()==1) %>%count(d)
工作正常,但將其保存在我的環境中,不在火花中。
謝謝!這有幫助! –
@JaimeCaffarel這很有趣,你的回答在這一刻幫助我很多! :)我沒有得到什麼是運行'copy_to'和'sdf_register'之間的區別。 Arent我們在兩種情況下都創建了火花datafranes? –
@Noobie謝謝:-)區別在於'copy_to'只是將數據框複製到Spark中,而'sdf_register'爲數據框創建Hive元數據,因此您可以使用Hive檢查數據(從表「wtd2」在這種情況下)。 –