scalding

    0熱度

    1回答

    我需要做到以下幾點: 組我記錄一些字符串屬性 丟棄組是太大 檢索在其餘每個組 這裏的最大因素是什麼,我走到這一步: val records: TypedPipe[MyStuff] = ... records .groupBy(_.getThatStringProperty) .toSet .filter(_._2.size < 10) .... 我最終

    0熱度

    1回答

    我試圖解決一個問題,即我通過pipe.To所有值都具有循環模擬我的問題,我是通過抽樣問題 Input file : number 1 2 3 4 Output should be number sumOfSmaller 1 0 2 1 3 3 4 6 所以對於每

    1熱度

    1回答

    我正在嘗試使用Scalding對groupBy語句的輸出進行排序。 我的數據集看起來像這樣 Src Eqid Version Datetime Lat Lon Magnitude Depth NST Region ci 15214001 0 Tuesday, September 11, 2012 12:31:37 UTC 33.0110 -115.5330 1.3

    1熱度

    1回答

    我使用CDH5.4。我正在運行一個從命令行看起來沒問題的hadoop工作(當簡單地使用hadoop jar運行時)。但是,如果我從yarn運行它,它會使用單個映射器並且無減速器靜靜地結束。我真的懷疑這兩個'跑步'運行的是同一個確切的命令。不過,我想確保這一點。所以我看日誌在: (注意它的一個scalding工作與自定義亞軍 - 一切都很好,當我從命令行運行)。 /container_1432733

    0熱度

    1回答

    我有一個嵌套的JSON文件,其中每個記錄可能包含嵌套部分中的一組不同的字段。該FIEL看起來是這樣的,雖然這是真正的Avro的版本: {"type":"record", "name":"features", "namespace":"OurCode", "fields":[{"name":"key","type":"long"}, {"name":"features",

    0熱度

    2回答

    我的Scalding作業中有一個records:TypedType[(String, util.List[String])],其中第一個值是一個id,第二個值是一個東西列表。想象一下以下內容:我想只輸出互不相同一個給定的ID記錄 ("1", ["a","b","c"]) ("1", ["a","b","c"]) ("1", ["a","b","c"]) ("2", ["a","b"]) (

    0熱度

    1回答

    我有以下example代碼的一些預處理之前sclading作業運行和一些後處理。由於這些預處理和後處理都在調用一些mysql數據庫,我想知道哪些hadoop節點可能會運行它們? (我需要打開從這些節點到數據庫的端口)是否可以運行預處理和後處理任何hadoopdata-node?我試着做一些研究,但找不到任何跡象,如何通過文檔/資源找到它將在哪個節點上運行? (PS的作業計劃與oozie) preP

    0熱度

    1回答

    我已經調整了燙傷KMeans示例來做KModes。問題是,當作業完成時,我需要加入具有匹配質心的聚集記錄。 KMeans代碼使用ValuePipe來保存質心。 因此,爲了將質心從ValuePipe中提取出來,我將其平面化。 然後我做的加盟是這樣的: HVKModes(500000,inputSets,10).waitFor(Config.default,mode) match { cas

    0熱度

    1回答

    我正在使用Scalding,並且我們有大約5.5GB的輸出文件大小。 (例如,對於30個縮減器,有30個5.5GB文件)。有沒有辦法說,限制每個輸出文件爲512MB?我可以增加減速器的數量,但希望有更多的動力。

    5熱度

    4回答

    有像數據: pid recom-pid 1 1 1 2 1 3 2 1 2 2 2 4 2 5 需要使它: pid, recommendations 1 2,3 2 1,4,5 含義忽略來自第二柱自,和使以逗號分隔的字符串休息。它的製表符分隔數據 試過的變化,但不知道如何引用的productId在foldLeft .groupBy('productId) {