mapreduce

    0熱度

    1回答

    我有許多json文檔存儲在一個Cloudant數據庫中。文檔結構: { "_id": "00229e31d5751d337abf409a4bd75492", "_rev": "1-d95d7ad32264d233453a0436b1557e7d", "timestamp": "2017-07-04T21:28:46.886Z", "APIresponse":

    -1熱度

    1回答

    我正在運行mapreduce作業。 我通過設置max_input_split_size字段來決定mappers的數量。 假設輸入文件大小爲1GB,max_input_split_size = 1mb。 因此,每個映射器將在文件中分配一些行數。 假設每個映射器都分配了k行。 有沒有辦法找到這個值k。

    0熱度

    1回答

    已將少數節點添加到集羣。我的M/R作業在任何一個作業上執行時都會失敗。確切的原因尚不清楚,需要幾天才能找到解決方案,因此我正在尋找臨時解決方法。 有沒有辦法在作業級別上排除這些節點(mapreduce.jobtracker.hosts.exclude.filename)? 或將舊的工作節點白名單(mapreduce.jobtracker.hosts.filename)?

    0熱度

    1回答

    我是Map Reduce的新手,並試圖解決一些問題,以便更好地通過實施學習。 背景: 我從movielens.com數據集,其中有各種電影評級。我正在嘗試計算電影的最大評分,並按照評分計數以降序對最終輸出進行排序(輸出的默認排序是通過電影ID進行的)。我想是這樣的: movieId:RATING_COUNT(排序在RATING_COUNT降序) 我搜索網頁和發現,我可以通過自定義按鍵實現這一目標。

    0熱度

    1回答

    MR作業使用128個映射器啓動,但只有7個並行運行。我如何增加並行運行地圖任務的數量? 感謝

    0熱度

    1回答

    $ hadoop jar target/projeto5-1.0-SNAPSHOT-fatjar.jar br.edu.ufam.anibrata.HBaseWordCount -input shakespeare.txt -output wcount -numReducers 1 17/07/15 20:23:29 INFO zookeeper.RecoverableZooKeeper: Pr

    0熱度

    1回答

    我有一個擴展TableMapper類的MapReduce作業。我使用TableMapperReduceUtil initTableMapperJob來設置可以正常工作的初始掃描。基於從掃描中檢索到的rowkey我想在我的MapReduce Map方法中的同一張表上運行Get(使用行初始掃描行中的值)。如何從Map方法內訪問Hbase連接到同一個表?

    0熱度

    1回答

    我測試了本地環境中的map.py和reduce.py。 輸入文件,如: R55726rest149624640000014962753030007006483323902288110000NJ110112hoboken R55726rest149636308400014964192000007063481824780452130000NY130800hoboken R23412rest149641

    0熱度

    1回答

    我們將每天掃描我們的aerospike並從掃描結果中獲得一些結果。 現在我們正在考慮將掃描更改爲map-reduce作業。但是我發現有些東西可能會使這次嘗試失敗。我還沒有找到任何簡單的方法將掃描作業分成多個子任務。例如,我在一個aerospike集羣中有8個節點,我可以想象,可以分配映射器的數據集的唯一模式是分別使用8個映射器掃描8個節點。我們在一個節點中有4組節點,當然我可以使用更多映射器掃描每

    -1熱度

    1回答

    我已經從該超鏈接下載movielens數據集ml-100k.zip(它是一個電影和用戶信息數據集,它位於舊數據集選項卡中) 我已經寫了簡單的MapReduce代碼如下所示; from mrjob.job import MrJob class MoviesByUserCounter(MRJob): def mapper(self , key ,line): (userID,