sparklyr

0熱度

1回答

拋出java.lang.ClassNotFoundException：org.apache.spark.h2o.H2OContext

library(rsparkling) library(sparklyr) library(h2o) test <- as_h2o_frame(sc, partitions$test, strict_version_check = FALSE) 錯誤是以下幾點： Error: java.lang.ClassNotFoundException: org.apache.spark.h2o.H

0熱度

1回答

sparklyr爲大csv文件

我想加載一個數據集與百萬行和1000列與sparklyr。我在工作時在一個非常大的羣集上運行Spark。數據的大小似乎仍然過大。我曾嘗試兩種不同的方法：這是數據集：（train_numeric.csv） https://www.kaggle.com/c/bosch-production-line-performance/data 1） - 將進入的.csv HDFS - spark_read_

0熱度

1回答

Sparklyr：sdf_copy_to失敗，350 MB數據集

我正面臨着嘗試使用sparklyr :: spark_write_csv（）編寫2個數據集的問題。這是我的配置： # Configure cluster config <- spark_config() config$spark.yarn.keytab <- "mykeytab.keytab" config$spark.yarn.principal <- "myyarnprincipal"

1熱度

1回答

sparklyr看不到在Hive中創建的數據庫，反之亦然

我在本地安裝了Apache Hive，並試圖通過Rstudio/sparklyr讀取表。我創建使用蜂巢數據庫： hive> CREATE DATABASE test; ，我試圖用下列R-腳本讀取數據庫： library(sparklyr) library(dplyr) library(DBI) spark_disconnect_all() Sys.setenv(SPARK_HOM

0熱度

1回答

在sparklyr中使用spark_read_csv時發生錯誤「對象的方法csv無效」

我試圖從hdfs中讀取R中的數據。我在使用sparklyr時遇到的一件事是解密錯誤信息......因爲我不是一個java程序員。考慮這個例子：要這樣做中的R 創建鮑魚數據幀 - 鮑魚是用於機器學習實例的數據集 load pivotal R package #contains abalone data and create dataframe if (!require(PivotalR)){

1熱度

1回答

在Cassandra中將寬錶轉換爲長格式

我不幸地被客戶端給出了非常混亂和非常大的表格（csv）。它在寬格式：「（作爲一個例子，列： Name, Date, Usage_Hr1, Usage_Hr2, ..., Usage_Hr24, ... lots more columns 我通常只將.csv裝入R和使用gather從tidyr包，但數據量太大。我已經考慮將數據加載到sparklyr，但沒有gather功能sparklyr尚未.

2熱度

1回答

Sparklyr：使用group_by，然後連接來自組中的行的字符串

我想在sparklyr中使用group_by（）和mutate（）函數來連接組中的行。下面是一個簡單的例子，我覺得應該工作，但不會： library(sparkylr) d <- data.frame(id=c("1", "1", "2", "2", "1", "2"), x=c("200", "200", "200", "201", "201", "201"),

1熱度

1回答

替代copy_to在sparklyr中處理大型數據集

我有下面的代碼需要一個數據集使用包裝函數對它進行SQL轉換，該函數使用Sparklyr調用spark API。然後，我使用「invoke（」createOrReplaceTempView「，」name「）」將表格作爲Spark數據框保存在Spark環境中，以便我可以調用該函數以進行未來的函數調用。然後我使用dplyr代碼「mutate」來調用配置單元函數「regexp_replace」將字母轉換爲

0熱度

1回答

Sparklyr錯誤：沒有行由'na.omit'調用

當我嘗試使用Sparklyr包使用ml_decision_tree或ml_logistic_regresion時出現以下錯誤。我在cloudera集羣上使用spark2.1.0。 > No rows dropped by 'na.omit' call. Error in > stop(simpleError(sprintf(fmt, ...), if (call.) > sys.call(sy

0熱度

2回答

是否有可能從SparklyR連接到mongodb

我可以從SparkR（我使用R Studio，Spark 2.x.x，Mongo連接器v2.0）連接到MongoDB，如https://docs.mongodb.com/spark-connector/current/r-api/所述。我想用SparklyR來做同樣的事情，那有可能嗎？找不到任何示例。