mapreduce

0熱度

1回答

我有許多json文檔存儲在一個Cloudant數據庫中。文檔結構： { "_id": "00229e31d5751d337abf409a4bd75492", "_rev": "1-d95d7ad32264d233453a0436b1557e7d", "timestamp": "2017-07-04T21:28:46.886Z", "APIresponse":

-1熱度

1回答

如何知道分配給映射器的行總數

我正在運行mapreduce作業。我通過設置max_input_split_size字段來決定mappers的數量。假設輸入文件大小爲1GB，max_input_split_size = 1mb。因此，每個映射器將在文件中分配一些行數。假設每個映射器都分配了k行。有沒有辦法找到這個值k。

0熱度

1回答

爲單個MapReduce作業指定'mapreduce.jobtracker.hosts.filename'

已將少數節點添加到集羣。我的M/R作業在任何一個作業上執行時都會失敗。確切的原因尚不清楚，需要幾天才能找到解決方案，因此我正在尋找臨時解決方法。有沒有辦法在作業級別上排除這些節點（mapreduce.jobtracker.hosts.exclude.filename）？或將舊的工作節點白名單（mapreduce.jobtracker.hosts.filename）？

0熱度

1回答

Mapreduce自定義鍵不起作用

我是Map Reduce的新手，並試圖解決一些問題，以便更好地通過實施學習。背景：我從movielens.com數據集，其中有各種電影評級。我正在嘗試計算電影的最大評分，並按照評分計數以降序對最終輸出進行排序（輸出的默認排序是通過電影ID進行的）。我想是這樣的： movieId：RATING_COUNT（排序在RATING_COUNT降序）我搜索網頁和發現，我可以通過自定義按鍵實現這一目標。

0熱度

1回答

如何增加MR或Hive中並行運行映射任務的數量CDH

MR作業使用128個映射器啓動，但只有7個並行運行。我如何增加並行運行地圖任務的數量？感謝

0熱度

1回答

HBASE如水槽的MapReduce的：異常線程「main」 org.apache.hadoop.hbase.client.RetriesExhaustedException

$ hadoop jar target/projeto5-1.0-SNAPSHOT-fatjar.jar br.edu.ufam.anibrata.HBaseWordCount -input shakespeare.txt -output wcount -numReducers 1 17/07/15 20:23:29 INFO zookeeper.RecoverableZooKeeper: Pr

0熱度

1回答

mapreduce，hbase和掃描

我有一個擴展TableMapper類的MapReduce作業。我使用TableMapperReduceUtil initTableMapperJob來設置可以正常工作的初始掃描。基於從掃描中檢索到的rowkey我想在我的MapReduce Map方法中的同一張表上運行Get（使用行初始掃描行中的值）。如何從Map方法內訪問Hbase連接到同一個表？

0熱度

1回答

Hadoop Mapreduce：如何將數據從映射器分區到還原器

我測試了本地環境中的map.py和reduce.py。輸入文件，如： R55726rest149624640000014962753030007006483323902288110000NJ110112hoboken R55726rest149636308400014964192000007063481824780452130000NY130800hoboken R23412rest149641

0熱度

1回答

如何將aerospike掃描作業更改爲map-reduce模式？

我們將每天掃描我們的aerospike並從掃描結果中獲得一些結果。現在我們正在考慮將掃描更改爲map-reduce作業。但是我發現有些東西可能會使這次嘗試失敗。我還沒有找到任何簡單的方法將掃描作業分成多個子任務。例如，我在一個aerospike集羣中有8個節點，我可以想象，可以分配映射器的數據集的唯一模式是分別使用8個映射器掃描8個節點。我們在一個節點中有4組節點，當然我可以使用更多映射器掃描每

-1熱度

1回答

如何在命令行運行python程序之前將數據與python代碼集成

我已經從該超鏈接下載movielens數據集ml-100k.zip（它是一個電影和用戶信息數據集，它位於舊數據集選項卡中）我已經寫了簡單的MapReduce代碼如下所示; from mrjob.job import MrJob class MoviesByUserCounter(MRJob): def mapper(self , key ,line): (userID,