apache-spark-1.3

1熱度

1回答

我們的羣集具有Spark 1.3和Hive 有一個大的Hive表格，我需要隨機添加選定的行。有一個小表，我閱讀並檢查一個條件，如果條件爲真，那麼我抓住我需要的變量，然後查詢隨機行來填充。我所做的就是在該條件下進行查詢，table.where(value<number)，然後使用take(num rows)將其設置爲數組。然後，由於所有這些行都包含我需要的信息，因此需要從大型配置表格中選擇哪些隨機

14熱度

3回答

爲什麼當Spark嘗試發送GetMapOutputStatuses時報告「與MapOutputTracker進行通信時出錯」？

我正在使用Spark 1.3對大量數據進行聚合。這項工作包括4個步驟：讀大（1TB）序列文件（對應於第一天的數據）過濾掉大部分，並獲得有關洗牌寫 keyBy客戶的1GB aggregateByKey（）爲構建該客戶的配置文件的自定義結構，對應於每個客戶的HashMap [Long，Float]。長鍵是獨一無二的，永遠不會超過50K個不同的條目。我這個配置運行以下命令： --name geo-

1熱度

1回答

RDD.saveAsTextFile之後的空文件是什麼？

我正在學習Spark，通過學習Spark中的一些示例：Lightning Fast Data Analysis，然後添加自己的開發。我創建了這個類來查看基本轉換和操作。 /** * Find errors in a log file */ package com.oreilly.learningsparkexamples.mini.java; import org.apache.sp

0熱度

2回答

In Spark如何通過名稱本身而不是其索引來讀取字段

我使用Spark 1.3。我的數據有50個以上的屬性，因此我去了一個自定義類。如何通過它的名稱每次我需要調用一個方法時，訪問一個字段從一個自定義類不受其位置這裏productElement（0）而且我不應該使用情況類，因此我正在使用模式的自定義類。 class OnlineEvents(gsm_id:String, attribution_id:String,