sparklyr

    2熱度

    3回答

    是否有方法使用sparklyr/dplyr的函數複製Spark數據幀的行? sc <- spark_connect(master = "spark://####:7077") df_tbl <- copy_to(sc, data.frame(row1 = 1:3, row2 = LETTERS[1:3]), "df") 這是所需的輸出,保存到一個新的火花TBL: > df2_tbl

    2熱度

    1回答

    我想實現一個非常簡單的ML學習問題,我用文本來預測一些結果。在R,一些基本的例子是: 進口一些假的,但有趣的文字數據 library(caret) library(dplyr) library(text2vec) dataframe <- data_frame(id = c(1,2,3,4), text = c("this is a this", "this is

    2熱度

    1回答

    我使用sparklyr來運行一些分析,但我也有興趣使用DBI編寫原始SQL查詢。 我能夠運行下面的查詢 query <- "SELECT col1, FROM mydata WHERE some_condition" dataframe <- dbGetQuery(spark_connection, query) 但這返回數據到R(在數據幀)。 我想要的是將數據保存在Spark中並將其存儲在

    10熱度

    1回答

    想要將一些R代碼轉換爲Sparklyr,函數如lmtest :: coeftest()和sandwich :: sandwich()。想上手Sparklyr擴展,但漂亮的新星火API和有問題:( 運行星火2.1.1和sparklyr 0.5.5-9002 感受第一步將是使一個DenseMatrix對象使用linalg庫: library(sparklyr) library(dplyr) sc

    1熱度

    1回答

    我有一個用例,我想將許多表放入spark(因爲它們是獨立的Cassandra分區),並將它們結合在一起,以便可以處理生成的大表使用dplyr和group_by。 我不能在所有的表工作完全獨立的,說我單獨的表是 (a1), (a2), (a3), (a4), (b1), (b2), (b3), (b4) 我需要一個查詢提交表格 ((a1, a2, a3, a4), (b1, b2, b3, b4

    2熱度

    1回答

    嘗試使用sdf_pivot與開發版本sparklyr。似乎工作的唯一聚合函數是count。如果我嘗試sum或avg我得到一個異常說明No matched method found for class org.apache.spark.sql.RelationalGroupedDataset.sum 下面是一些代碼來重現: iris_tbl <- copy_to(sc, iris) iris_tb

    1熱度

    1回答

    當我撥打以下重複性淡水河谷上as.factor時: install.packages("h2o", type = "source", repos = "http://h2o-release.s3.amazonaws.com/h2o/rel-ueno/8/R") library(rsparkling) library(h2o) library(sparklyr) library

    0熱度

    1回答

    我試圖使用的HIVE UDFs(https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF#LanguageManualUDF-DateFunctions) 正確地讀入一些時間戳。 不幸的是,我一直沒能正確解析以下時間戳: unix_timestamp('2011-03-01T00:00:04.226Z', 'yyyy-M

    0熱度

    2回答

    我正在使用Sparklyr在具有244GB內存的虛擬機上以本地模式運行Spark應用程序。在我的代碼中,我使用spark_read_csv()從一個文件夾讀取〜50MB的csvs,然後從第二個文件夾讀取〜1.5GB的csvs。我的問題是,應用程序在嘗試讀取第二個文件夾時會引發錯誤。 據我所知,問題是驅動程序JVM可用的默認RAM是512MB - 對於第二個文件夾太小(在本地模式下,所有操作都在驅動

    0熱度

    1回答

    我有一個包含多行的文件。例如 A B C awer.ttp.net Code 554 abcd.ttp.net Code 747 asdf.ttp.net Part 554 xyz.ttp.net Part 747 我想用sparklyr庫語句,分割表只列A作爲R火花作出命令,我想一個新行添加到表d,其值AWER,ABCD, asdf和xyz。 我已經試過 data_2 %