apache-spark-1.3

    1熱度

    1回答

    我們的羣集具有Spark 1.3和Hive 有一個大的Hive表格,我需要隨機添加選定的行。 有一個小表,我閱讀並檢查一個條件,如果條件爲真,那麼我抓住我需要的變量,然後查詢隨機行來填充。我所做的就是在該條件下進行查詢,table.where(value<number),然後使用take(num rows)將其設置爲數組。然後,由於所有這些行都包含我需要的信息,因此需要從大型配置表格中選擇哪些隨機

    14熱度

    3回答

    我正在使用Spark 1.3對大量數據進行聚合。這項工作包括4個步驟: 讀大(1TB)序列文件(對應於第一天的數據) 過濾掉大部分,並獲得有關洗牌寫 keyBy客戶的1GB aggregateByKey()爲構建該客戶的配置文件的自定義結構,對應於每個客戶的HashMap [Long,Float]。長鍵是獨一無二的,永遠不會超過50K個不同的條目。 我這個配置運行以下命令: --name geo-

    1熱度

    1回答

    我正在學習Spark,通過學習Spark中的一些示例:Lightning Fast Data Analysis,然後添加自己的開發。 我創建了這個類來查看基本轉換和操作。 /** * Find errors in a log file */ package com.oreilly.learningsparkexamples.mini.java; import org.apache.sp

    0熱度

    2回答

    我使用Spark 1.3。 我的數據有50個以上的屬性,因此我去了一個自定義類。 如何通過它的名稱每次我需要調用一個方法時,訪問一個字段從一個自定義類不受其位置 這裏productElement(0) 而且我不應該使用情況類,因此我正在使用模式的自定義類。 class OnlineEvents(gsm_id:String, attribution_id:String,