sparkr

    2熱度

    1回答

    我正在使用Sparklyr包與Spark一起工作。 我的代碼是:在sparklyr加載文件時 跟隨誤差即將 library(sparklyr) sc <- spark_connect(master = "local", version = "2.0.1") iris_tbl <- copy_to(sc, iris) 錯誤顯示: Error: java.lang.reflect.Invo

    1熱度

    1回答

    任何人都可以告訴我,我們是否可以將數據幀轉換爲SparkR中的列表。我知道collect()函數可以幫助你做到這一點。但是,當我們使用大量數據時,這是不可取的。在python/Scala中,有一個函數叫做本地迭代器(),它將數據幀轉換爲列表。我在SparkR中掙扎着。任何人都可以幫忙!

    2熱度

    1回答

    在Spark的Java/Scala/Python實現中,可以簡單地調用或DataFrame類型的foreach方法來並行化數據集上的迭代。 在SparkR中我找不到這樣的指令。遍歷DataFrame的行的正確方法是什麼? 我只能找到gapply和dapply函數,但我不想計算新的列值,我只是想通過從列表中取一個元素並行執行某些操作。 我以前的嘗試是與lapply inputDF <- read.d

    1熱度

    2回答

    我是集羣計算的新手,所以不確定這是否可能。 我在Rstudio中成功創建了spark_context(使用sparklyr)連接到我們的本地Spark羣集。使用copy_to我可以將數據幀從R上傳到Spark,但我試圖使用spark_read_csv將本地存儲的CSV文件直接上載到Spark羣集,而不是先將其導入R環境(這是一個大的5GB文件)。它不工作(甚至用file:///作爲前綴位置),並且

    0熱度

    1回答

    我已經創建了一個數據幀,其格式爲mtcars。我做了一組gear和cyl。然後我計算最大爲hp和disp。團隊中出現了問題,因爲那裏應該有8個團隊。而我只得到6組。 library(sparkR) xx=as.DataFrame(sqlContext, data = mtcars) head(agg(groupBy(xx, "gear", "cyl"), hp = 'max'))

    0熱度

    1回答

    我在火花的虹膜數據上構建了一個簡單的隨機森林模型,我希望有一些精度測量的方法。 我想到了一個簡單的列匹配的選項也一樣,但是這並不工作 代碼: library("SparkR") sc = sparkR.session("local[*]") iris_data <- as.DataFrame(iris) train <- sample(iris_data, withReplacemen

    0熱度

    2回答

    通常,當我們讀取R中的csv文件時,空格會自動轉換爲'。'。 > df <- read.csv("report.csv") > str(df) 'data.frame': 598 obs. of 61 variables: $ LR.Number $ Vehicle.Number 然而,當我們讀sparkR同一csv文件,空間保持不變,不被火花隱式地處理 #To read a csv

    1熱度

    1回答

    在我目前的項目中,我在SparkR中使用H2O機器學習庫。我有多個.csv文件並通過h2o數據框讀取這些.csv文件。現在,我想申請h2o.merge()函數的文件到映射一個h2o數據幀的主鍵與另一個h2o數據幀的外鍵。我的主要h2o數據框包含14列。我使用h2o.getTypes()函數獲取所有列的數據類型。 爲了應用h2o.merge()函數,該列應該是字符串或數字類型而不是枚舉或實數。所以要

    0熱度

    1回答

    我試圖按照SparkR教程一個JSON文件中讀取。我按照要求遵循設置。但只要我試圖函數「read.json(路徑)」我收到以下錯誤: "Error in invokeJava(isStatic = FALSE, objId$id, methodName, ...) : java.lang.reflect.InvocationTargetException at sun.refl

    1熱度

    1回答

    我目前正在研究sparklyr,並試圖在Cassandra中創建一個新的密鑰空間。它有可能嗎?如果是這樣,怎麼樣? 我是想表達如下: sql(sqlContext, "CREATE KEYSPACE key1 WITH REPLICATION = {'class': 'SimpleStrategy', 'replication_factor': 1 }") 但結果我取得錯誤: Error in