sparklyr

2熱度

1回答

Sparklyr - 無法實例化SessionHiveMetaStoreClient

嘗試使用sparklyr（0.5.3）庫（雲中的同一臺機器）從R Studio連接到Spark羣集（Spark 2.0.1）時，出現如下錯誤。它看起來像一個md_metastore是需要的，它無法實例化。我沒有hive-site.xml配置文件（不知道這可能是一個問題）。 spark.sql.warehouse.dir = file:///usr/lib/spark/spark-2.0.1-b

1熱度

2回答

在apache集羣上使用本地rstudio上的sparklyr

我是Sparklyr的新手，而且對R來說還是比較新的。我試圖弄清楚我是否可以在本地RStudio上運行，並連接到網絡上的apache spark集羣。所有的博客例子都談到了直接在apache spark集羣上運行RStudio Server。任何人都可以驗證這是否可能？

0熱度

1回答

如何調用Sparklyr中的Spark函數並調用

我想在RStudio的Sparklyr中使用invoke來對HDFS中的文本文件進行簡單的字數計算，但沒有弄清楚語法。我可以通過使用（類似於上擴展的SparklyR文檔計數的例子 - http://spark.rstudio.com/extensions.html）得到整個文件回爲一個列表： getFileCollect <- function(sc, path) { spark_con

2熱度

1回答

將SQL表讀入SparklyR

如何使用SparklyR將SQL表連接到R？ cheatsheet表示您可以使用DBI::dbWriteTable，但不會提及DBI::dbReadTable。假設我的表格位於： driver = "SQL Server Native Client 11.0" server = "corsql10.corwin.local" database = "Project_DB" table = "

2熱度

1回答

從sparklyr以外的默認方案（數據庫）的訪問表

當我使用sparklyr和yarn-client方法設法連接到我們的（新）集羣后，現在我只能顯示默認方案中的表。我如何連接到scheme.table？使用DBI它正在工作，例如使用以下行： dbGetQuery(sc, "SELECT * FROM scheme.table LIMIT 10") 在HUE中，我可以顯示所有方案的所有表格。〜克

0熱度

3回答

是否有可能在dplyr中進行完全連接並保留連接中使用的所有列？

我有我想要做一個完整的加盟使用dplyr兩個表，但我不希望它降大任列。根據文檔和我自己的經驗，它只保留左側的連接列。這是一個問題，因爲連接值已經消失，因此右側有一行記錄。例如，假設我有兩個表A和B， customerId | revenue customerId | state -----------|--------- -----------|------- 1 |

1熱度

1回答

功能tidyr的收集和使用

我有一個數據幀如下團結： library(tidyverse) m <- matrix(rep(1:28,each = 10), ncol = 28) colnames(m) <- c("co1","col2", LETTERS) df <- as_tibble(m) df newdf<-df %>% unite("newcol", c(col1, col2), sep = " ",

0熱度

1回答

與sparklyr一起使用left_joint時刪除了表格

我正在處理一些我想加入的表格，因爲我使用sparklyr（由於表格大小）和dplyr的left_joint。這裏是代碼示例： query.1 <- left_join(pa11, pa12, by = c("CODIGO_HAB_D","ID_EST","ID_ME","ID_PARTE_D","ID_PAR", "ID_REP")) %>% left_join(., pa13, by = c(

2熱度

1回答

是否可以在Sparklyr中將ORC文件讀取到Spark Data Frame？

我知道sparklyr有以下讀取文件的方法： spark_read_csv spark_read_parquet spark_read_json 什麼閱讀獸人文件？這個圖書館是否支持它？我知道我可以在SparkR或this solution中使用read.orc，但我想讓我的代碼保持閃耀。

1熱度

1回答

在Spark中做計算（R）

我正在使用sparklyr庫。我有一個變量，wtd我複製到火花： copy_to(sc,wtd) colnames(wtd) <- c("a","b","c","d","e","f","g") 然後，我想做一個計算和存儲的火花，而不是在我的R. 當我試圖環境： sdf_register(wtd %>% group_by(c,b) %>% filter(row_number()==1) %>