sparklyr

2熱度

3回答

是否有方法使用sparklyr/dplyr的函數複製Spark數據幀的行？ sc <- spark_connect(master = "spark://####:7077") df_tbl <- copy_to(sc, data.frame(row1 = 1:3, row2 = LETTERS[1:3]), "df") 這是所需的輸出，保存到一個新的火花TBL： > df2_tbl

2熱度

1回答

H20：如何在文本數據上使用漸變提升？

我想實現一個非常簡單的ML學習問題，我用文本來預測一些結果。在R，一些基本的例子是：進口一些假的，但有趣的文字數據 library(caret) library(dplyr) library(text2vec) dataframe <- data_frame(id = c(1,2,3,4), text = c("this is a this", "this is

2熱度

1回答

DBI/Spark：如何將結果存儲在Spark Dataframe中？

我使用sparklyr來運行一些分析，但我也有興趣使用DBI編寫原始SQL查詢。我能夠運行下面的查詢 query <- "SELECT col1, FROM mydata WHERE some_condition" dataframe <- dbGetQuery(spark_connection, query) 但這返回數據到R（在數據幀）。我想要的是將數據保存在Spark中並將其存儲在

10熱度

1回答

Matrix Math With Sparklyr

想要將一些R代碼轉換爲Sparklyr，函數如lmtest :: coeftest（）和sandwich :: sandwich（）。想上手Sparklyr擴展，但漂亮的新星火API和有問題:( 運行星火2.1.1和sparklyr 0.5.5-9002 感受第一步將是使一個DenseMatrix對象使用linalg庫： library(sparklyr) library(dplyr) sc

1熱度

1回答

Sparklyr堆棧溢出錯誤聯合多個表

我有一個用例，我想將許多表放入spark（因爲它們是獨立的Cassandra分區），並將它們結合在一起，以便可以處理生成的大表使用dplyr和group_by。我不能在所有的表工作完全獨立的，說我單獨的表是 (a1), (a2), (a3), (a4), (b1), (b2), (b3), (b4) 我需要一個查詢提交表格 ((a1, a2, a3, a4), (b1, b2, b3, b4

2熱度

1回答

什麼聚合函數可以與sparklyr中的sdf_pivot一起使用？

嘗試使用sdf_pivot與開發版本sparklyr。似乎工作的唯一聚合函數是count。如果我嘗試sum或avg我得到一個異常說明No matched method found for class org.apache.spark.sql.RelationalGroupedDataset.sum 下面是一些代碼來重現： iris_tbl <- copy_to(sc, iris) iris_tb

1熱度

1回答

H2O錯誤調用H2O數據幀

當我撥打以下重複性淡水河谷上as.factor時： install.packages("h2o", type = "source", repos = "http://h2o-release.s3.amazonaws.com/h2o/rel-ueno/8/R") library(rsparkling) library(h2o) library(sparklyr) library

0熱度

1回答

Hive：如何轉換毫秒時間戳？

我試圖使用的HIVE UDFs（https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions）正確地讀入一些時間戳。不幸的是，我一直沒能正確解析以下時間戳： unix_timestamp('2011-03-01T00:00:04.226Z', 'yyyy-M

0熱度

2回答

如何通過Sparklyr以本地模式運行Spark時配置驅動程序內存？

我正在使用Sparklyr在具有244GB內存的虛擬機上以本地模式運行Spark應用程序。在我的代碼中，我使用spark_read_csv()從一個文件夾讀取〜50MB的csvs，然後從第二個文件夾讀取〜1.5GB的csvs。我的問題是，應用程序在嘗試讀取第二個文件夾時會引發錯誤。據我所知，問題是驅動程序JVM可用的默認RAM是512MB - 對於第二個文件夾太小（在本地模式下，所有操作都在驅動

0熱度

1回答

Sparklyr拆分字符串

我有一個包含多行的文件。例如 A B C awer.ttp.net Code 554 abcd.ttp.net Code 747 asdf.ttp.net Part 554 xyz.ttp.net Part 747 我想用sparklyr庫語句，分割表只列A作爲R火花作出命令，我想一個新行添加到表d，其值AWER，ABCD， asdf和xyz。我已經試過 data_2 %