sparklyr

    0熱度

    1回答

    我想傳遞一個自定義的一個R函數裏面spark_apply但繼續運行到問題,並不能找出一些錯誤的意思。 library(sparklyr) sc <- spark_connect(master = "local") perf_df <- data.frame(predicted = c(5, 7, 20), actual = c(4, 6, 40)) perf_tbl

    1熱度

    1回答

    我正在使用本地模式上Sparklyr以下配置: conf <- spark_config() conf$`sparklyr.cores.local` <- 28 conf$`sparklyr.shell.driver-memory` <- "1000G" conf$spark.memory.fraction <- 0.9 sc <- spark_connect(master = "loc

    1熱度

    1回答

    我組合了兩個具有不同行數的數據幀。使用cbind.na功能組合qpcR庫組合兩個數據幀。它顯示了在我的本地機器中正確使用spark_apply功能的結果。但是,在集羣模式下,它顯示如下錯誤。 注意:單個數據框顯示集羣和本地的結果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

    0熱度

    2回答

    我想遵循SparklyR上的簡單指南,但它在最開始時會引發錯誤。我安裝SparklyR和火花的本地版本編寫的指南: library("sparklyr") spark_install(version="1.6.2") 然後我打開一個連接,這裏的地方發生錯誤: sc <- spark_connect(master="local") 我得到「R代碼執行錯誤」和以下內容: 使用Spark:2.2.0 E

    0熱度

    1回答

    我正在使用RStudio。安裝了Spark的本地版本,運行一些東西,挺開心的。現在我正嘗試使用RStudio Server和獨立版本的Spark從羣集中讀取我的實際數據。數據在Cassandra,我不知道如何連接到它。任何人都可以給我一個關於如何連接和讀取數據的好的入門書嗎?

    1熱度

    1回答

    早上好, 這可能聽起來像一個愚蠢的問題,但我想通過RStudio訪問Spark中的臨時表。我沒有任何Spark羣集,我只在本地PC上運行所有的東西。 當我開始通過的IntelliJ星火,實例被罰款運行: 17/11/11 10:11:33 INFO Utils: Successfully started service 'sparkDriver' on port 59505. 17/11/11

    1熱度

    1回答

    我試圖使用spark_apply在Spark表上運行下面的R函數。這工作得很好,如果我的輸入表小(例如5000行),但約30分鐘拋出一個錯誤後,當該表是中等大小(例如500萬行): sparklyr worker rscript failure, check worker logs for details 望着星火UI顯示有隻有一個任務正在創建,並且一個執行者被應用於這個任務。 任何人都可以提供建

    0熱度

    1回答

    我想使用mutate生成正態分佈的隨機數作爲列。我嘗試使用runif(),但它在大規模數據上拋出錯誤。 extract_grp <- extract_grp %>% mutate(rand = runif(sdf_nrow(extract_grp))) glimpse(extract_grp) 是正的錯誤是: Error: org.apache.spark.sql.AnalysisExce

    1熱度

    1回答

    Sparklyr使用外部變量 動作示例的case_when時抱怨: 「:無法從NULL提取環境錯誤」 test <- copy_to(sc, tibble(column = c(1,2,3,4))) group1_cols <- c(1,2) group2_cols <- c(3,4) test %>% mutate(group = case_when( colum

    5熱度

    1回答

    我試圖與sparklyr閱讀2GB〜(5MI線)爲.csv: bigcsvspark <- spark_read_csv(sc, "bigtxt", "path", delimiter = "!", infer_schema = FALSE, memory = TRUE, overwrite = TRU