2008-12-01 78 views
13

我正在尋找其他人如何使用Hadoop或其他類似MapReduce技術的一般信息。一般來說,我很好奇你是否正在編寫MR應用程序來處理現有數據集(如Web服務器日誌文件),還是正在編寫生成和處理新數據集的應用程序?你如何使用MapReduce/Hadoop?

編輯: 後續問題

(1)你是否執行對其他MR程序生成數據的MR程序? (2)你是否曾經需要使用MR修改現有的數據組?

(3)你曾與其他開發者分享你的數據集嗎?

+0

這是舊帖子。我已經發表了關於MapReduce的研究論文。更多信息(和我們的基準源代碼)可以在這裏找到: [http://database.cs.brown.edu/projects/mapreduce-vs-dbms/](http://database.cs.brown。埃杜/項目/ MapReduce的VS-DBMS /) – apavlo 2011-08-07 20:40:01

回答

2

我正在分析現有的數據集,在我的情況下是程序員活動的痕跡。

8

結賬的PowerdBy Hadoop wiki的例子,從Facebook到福克斯新聞以及他們是如何使用它的。

1

我用的Hadoop作爲nutch一部分,建築/分析網絡的圖表和文字

(1)許多任務不能一次性完成,因此需要對MR-生成的數據運行MR是必不可少的。 (2)使用nutch進行爬網時,有些情況下需要過濾或規範crawldb或其他數據。 (所以,是的)

(3)到目前爲止主要是作爲轉儲或某種形式的結果。到目前爲止,不是「本地」MR數據。

0

到目前爲止,我的兩個用途是分析大型行爲數據集(從網上收集,手機,& c)並行化大型問題的方法(例如,使用遺傳算法找到NP-complete中的局部最優解問題空間)。

在一般情況下,MR流程是多階段的,所以我經常運行早期MR階段生成的數據。

1

總的來說,我很好奇,您是否寫MR應用 過程中存在的數據集(如Web服務器日誌文件),或者是生成和處理新的數據集,你 編寫應用程序?

,我與MR應用做處理涉及可用於生成新的數據集,現有數據集的工作...

(1)你有沒有執行MR程序針對其他MR程序生成的數據?

...是的。這被稱爲鏈接映射/縮減操作,您可以按順序鏈接多個映射並減少作業。

(2)您是否曾經需要使用MR修改現有數據集?

MR的想法是拋出現有的數據集,而不是真的必須修改它才能處理和分析信息。我不得不這樣做的唯一情況是將數據集分成多個包。

(3)你有沒有和其他開發者分享你的數據集?

許多涉及主動式MR應用程序的代碼被認爲是專有的,因此與其他開發人員分享它是一個問題;如果您希望示例數據集適用於我推薦的Pro Hadoop(Venner),Hadoop in Action(Lam)和Hadoop權威指南(白色)的書籍。