apache-spark-dataset

    0熱度

    1回答

    我有一個DataFrame這裏是架構。的element數是未知的,但一些元素(例如element1和element3)的必須存在性和唯一性 root |-- context: struct (nullable = true) |---|-- key: string (nullable = true) | |-- data: struct (nullable = true) | | |--

    0熱度

    2回答

    假設我們有一個包含兩列(稱爲索引和值)的Spark數據集,按第一列(索引)排序。 ((1, 100), (2, 110), (3, 90), ...) 我們希望有一個數據集與具有運行總計值的第二列(值)的第三列。 ((1, 100, 100), (2, 110, 210), (3, 90, 300), ...) 任何建議,如何有效地做到這一點,有一次通過的數據?還是有沒有可用於此的任何罐裝

    0熱度

    1回答

    我有兩個我試圖加入的spark數據集。連接鍵嵌套在數據集A中,所以在加入數據集B之前,我必須首先將其平面化。問題是,只要我平滑映射該字段,列名就成爲默認的「_1」,「_2」等。是否有可能以某種方式更改別名? A.flatMap(a => a.keys).join(B).where(...)

    0熱度

    1回答

    自定義對象我想叫API,它預計Employee對象,如下圖所示: public class EmployeeElements { private Set<Long> eIds; private Map<Long, List<EmployeeDetails>> employeeDetails; private Map<Long, List<Address>> addre

    0熱度

    1回答

    我正在使用spark 1.6.1。 是否有任何API可用於將GroupDataset保存爲實木複合地板文件。 或將其轉換爲DataFrame。 E.g.我有一個自定義的對象「過程」,我已經將Dataframe轉換爲過程對象。 之後,我正在通過patientID進行分組。 我想分組爲文件或將其作爲數據框傳遞給其他函數。 我沒有獲得任何存儲API或將其轉換爲Dataframe。 val procedu

    1熱度

    1回答

    我的代碼與此完全相似。只在這裏更改變量和表名。請在輸入時忽略任何語法錯誤。原始代碼編譯成功。 ------ CODE ------ Dataset<Row> test = sqlContext.sql("select * from test_table"); test.createOrReplaceTempView("temp_view_test"); sqlContext.sql("dr

    0熱度

    1回答

    我們有一個Spark版本2.0的MapR羣集 我們試圖測量當前在TEZ引擎上運行的Hive查詢的性能差異,然後在Spark-sql上運行它,只需編寫在.hql文件中查詢sql查詢,然後通過shell文件調用它。 查詢中包含很多Join,這些Join肯定會創建多個階段,並且在這種情況下將會發生混洗,那麼最合適的選擇是什麼? 這是真的,數據集,星火比Dataframes較慢像GROUPBY,最大值,最

    1熱度

    1回答

    我知道星火知道如何分配需要爲將在例如另一個節點故障的情況下,開始了一個新的節點上完成的工作。 我想知道這是否可以在其他用例中使用。 假設我有轉換和操作的樹。當其中一個數據集/數據框得到更新時會發生什麼(例如,導入了新文件)。在這種情況下,我只想重複那些受到影響並與此變化相關聯的轉換和操作。其他不相關的轉換和操作應該從緩存中使用,因爲它們不受影響。 現在,我應該只有一些這些數據框和轉換和行動,我可以

    0熱度

    1回答

    我在外部jar中設置了pojos,我想從這些對象中創建Dataset。 如果我從Scala案例類創建數據集,那麼我可以根據期望創建數據集。 如果我試圖做與JAVA對象相同,它將一列中的所有數據作爲一個對象。 case class patientDiagnosis(patientId: Long, visitId: Long, diagnosisCode: String, isPrimaryDiag

    0熱度

    1回答

    假設您有一個包含三列的CSV:item,username和userid。它是利用星火的數據集API在讀這一個相當簡單的事情: case class Flat(item: String, username: String, userid: String) ds = sparkSession.read.csv("path/to/data").toDF("item", "username", "use