MapReduce - 除了字數統計以外的其他內容？

我一直在尋找的MapReduce，並通過它和它的應用的各種文件閱讀，但對我來說，似乎MapReduce的是隻適合一個很窄類別的情景，最終導致字計數。MapReduce - 除了字數統計以外的其他內容？

如果您看original paper Google的員工提供「各種」潛在用例，如「分佈式grep」，「分佈式排序」，「反向網絡鏈接圖」，「每個主機的術語 - 向量」等。但是如果你仔細觀察，所有這些問題歸結爲簡單的「計算單詞」 - 即統計大量數據中某些事物的數量發生，然後聚合/過濾並對發生的事件列表進行排序。

也有一些情況下，MapReduce的已使用遺傳算法或關係型數據庫，但它們不使用由谷歌發佈的「香草」的MapReduce。相反，他們沿着Map-Reduce鏈引入了進一步的步驟，例如Map-Reduce-Merge等。

您是否知道其他（已記錄？）的情景，其中「vanilla」MapReduce已被用於執行更多單詞-數數？（也許對於光線追蹤，視頻轉碼，密碼等等 - 簡而言之是可並行化的任何「計算重量」）

來源

2011-12-02 Dexter

我記得後面的計算重型起重[神的號是20]（http://cube20.org/）由MapReduce的工作要做，但我無法找到來源此刻舉。 – ephemient

MapReduce適用於可被認爲是令人尷尬的並行問題。 MapReduce存在很多問題，例如那些需要大量節點間全部通信的通信。例如，快速傅立葉變換和信號相關。

來源

2011-12-02 01:36:27

當節點之間有很多通信時，請考慮Apache [Giraph]（http://incubator.apache.org/giraph/）和[Hama]（http://incubator.apache.org/hama/）。 Giraph基於[Google Pregel]（http://googleresearch.blogspot.com/2009/06/large-scale-graph-computing-at-google.html）.Hama基於[BSP]（http：// en.wikipedia.org/wiki/Bulk_synchronous_parallel）。請注意，兩者都處於孵化器狀態，但看起來很有希望。 –

現在有許多令人印象深刻的mapreduce算法可用於各種各樣的問題（其他答案中的幾個參考文獻）。有人可以傳播FUD並將他的答案標記爲正確，這使得我不太願意參與到計算器中。 – piccolbo

有使用MapReduce的在統計並行計算項目。例如，Revolutions Analytics已開始使用RHadoop project供R使用.Hadoop也用於computational biology以及其他可用於分析許多分散作業的大型數據集的領域。

來源

2011-12-02 02:03:00

Atbrox一直保持mapreduce hadoop algorithms in academic papers。這裏是link。所有這些都可以用於實際目的。

來源

2011-12-02 04:29:06

我在RHadoop一個程序包的作者，我寫的分佈與源的幾個例子和教程，迴歸使用線性最小二乘法，矩陣乘法等也有紙，我想推薦http://www.mendeley.com/research/sorting-searching-simulation-mapreduce-framework/ 似乎強烈支持mapreduce與經典並行編程模型（如PRAM和BSP）的等價性。我經常將mapreduce算法寫成PRAM算法的端口，例如參見blog.piccolboni.info/2011/04/map-reduce-algorithm-for-connected.html。所以我認爲mapreduce的範圍顯然不僅僅是「尷尬的平行」，而不是無限的。例如，我在加速某些MCMC仿真時遇到了一些限制。當然，這可能是我沒有使用正確的方法。我的經驗法則如下：如果問題可以在O（N）個處理器上以O（log（N））時間並行求解，那麼它對於mapreduce來說是一個很好的候選者，它具有O（log（N））作業並在每項工作中花費不變的時間。其他人和我提到的論文似乎更多地關注O（1）工作案例。當超出O（log（N））時間時，MR的情況似乎變得稍微弱一些，但是在當前實現（高作業開銷）而不是根本性方面可能存在某些限制。這是一個相當迷人的時間來繪製MR領土的圖表。

來源

2012-02-17 22:21:15 piccolbo

MapReduce - 除了字數統計以外的其他內容？

回答

相關問題