mapreduce

    0熱度

    1回答

    我有一個map函數和reduce函數來計算一個鍵的所有出現次數。該代碼是下面的CouchDB 2.0設計文檔: 地圖功能 function(doc) { emit(doc.domainID, 1); } Reduce函數 _sum 這裏是什麼樣的瀏覽器顯示的快照: 這裏是結果,當我運行在Python下面的代碼:打印時 import couchdb couch = couchdb.Serv

    -1熱度

    1回答

    我正在研究我的最後一年項目,我們必須創建一個應用程序來檢測惡意網址。我們必須在所有網址之間找到模式。我們有一個很大的數據集,需要很長時間才能將網址與其他網址相匹配。 現在我們正在考慮將項目移到hadoop上,但我們沒有弄清楚如何爲我們的java項目和數據集製作mapreduce並將其移至hadoop。 請幫助我們爲我們的程序和數據集創建mapreduce。 任何幫助將不勝感激。

    0熱度

    1回答

    我正在嘗試爲涉及讀取大量文件並分析它們的任務創建工作人員。 我想是這樣的: list_of_unique_keys_from_csv_file = [] # About 200mb array (10m rows) # a list of uniquekeys for comparing inside worker processes to a set of flatfiles 我需要更多的

    0熱度

    1回答

    我有大量文本文件,其大小合計爲1 TB。比方說,我必須對每個文件執行字數統計並分別存儲每個文件的結果。 Apache Hadoop是否是這種問題的正確解決方案?每個文件的大小是5 MB。我無法連接文件,因爲我想單獨查看每個文件的字數統計結果。我希望Hadoop做的是將每個文件作爲輸入提供給映射器,並在reducer中爲其生成單獨的輸出文件。

    0熱度

    1回答

    作業中有兩個輸入文件,它們位於兩個不同的目錄中,在Hadoop job taking input files from multiple directories中,我們可以從多個目錄中讀取文件。這些文件具有相同的名稱,但它們位於不同的名稱文件夾中。 C1/part-0000 C2/part-0000 是否有可能在地圖階段檢測文件? 像一些事情: public void map(LongWritab

    1熱度

    1回答

    我在我們的服務器中使用2個節點的HDP 2.5。我在配置單元中成功運行查詢。突然間,我正面臨與源表映射,將列添加到我的新表中,通過下面的查詢;同時在配置單元視圖中運行此查詢。我該如何解決這個問題? create table New_table As select distinct ab.id, ab.first_name, ab.middle_name, ab.last_name,

    0熱度

    1回答

    我有一個可以啓動或停止的服務。每個操作都會生成一個包含時間戳和操作類型的記錄。最終,我最終得到一系列時間戳記的操作記錄。現在我想計算一天中服務的正常運行時間。這個想法很簡單。對於每對啓動/停止記錄,計算時間跨度並進行總結。但是如果可能的話,我不知道如何使用Hive來實現它。我可以創建表來存儲中間結果。這是主要的阻塞問題,還有一些其他小問題。例如,一些開始/停止對可能跨越一天。任何想法如何處理這個小

    1熱度

    1回答

    我在一個表示相同數據模式的不同表格的地方有大量的parquet文件,我想將它們合併成一個大的RDD。理想情況下,我想要做一個映射減少,其中映射器發射小RDD,減速器合併它們。但是,我無法弄清楚如何在映射器中發射RDD。有任何想法嗎? 下面的第一行生成目錄中的文件列表,第二行應生成完整的RDD。但是,它不能序列化錯誤,因爲我不認爲你可以在地圖實例中創建一個RDD。 arr = map(lambda

    1熱度

    1回答

    我剛開始學習Hadoop,並且有各種格式的輸入類型。我有幾個程序要研究,我的主要問題是如何確定輸入格式是TextInputFormat還是KeyValueTextInputFormat或其他。 你的幫助是非常讚賞

    -1熱度

    1回答

    我想通過過濾父節點名稱和其中的幾個子節點來從父JSON中過濾來創建JSON。雖然這樣做,我得到以下錯誤 Cannot read property 'filter' of undefined at data.children.filter.map.Object.assign.children.o.children.reduce https://jsfiddle.net/snt1/nLua0oob/1