用於Hadoop-MapReduce的小數據集

我想熟悉Hadoop-MapReduce。在研究了這些概念的理論知識後，我想對他們進行練習。用於Hadoop-MapReduce的小數據集

但是，我找不到這種技術的小數據集（高達3 Gb）。我在哪裏可以找到數據集來練習？

或者，我該如何練習Hadoop-MapReduce？換句話說，有沒有提供練習的教程或網站？

爲什麼不自己創建一些數據集？

一個非常簡單的事情就是用一個數以百萬計的隨機數填充一個文件，然後使用Hadoop來查找重複，三元組，素數，重複數的因子等等。

當然，它不像尋找常見的Facebook朋友那樣有趣，但它應該足以得到一點Hadoop的做法。

2012-10-16 13:11:53 rolve

對我來說這是費時的事，而不是一個好習慣。在我看來，處理有意義的數據集將提高我的解決問題的能力。 – user1743323

我不同意這兩個，但當然是由你來決定。我認爲簡單的人造數據是一個更好的開始，因爲您不必先理解和解析或預處理它。而且，通過簡單的任務和簡單的數據，您可以更輕鬆地驗證您的程序是否在實際工作。祝你好運與基因組或電影評級。 – rolve

可公開訪問的數據集，您可以下載並隨時使用。下面是一個幾個例子。

http://www.netflixprize.com/index - 作爲比賽的一部分，它用戶發佈的收視數據集來挑戰人們開發更好的推薦算法。未壓縮的數據在2 GB +。它包含來自480 K用戶的17 K電影的100 M +電影評級。

http://aws.amazon.com/publicdatasets/ - 例如，其中一個生物數據集是大約550 GB的註釋人類基因組數據。在經濟學下，您可以找到數據集，例如2000年美國人口普查（大約 200 GB）。

http://boston.lti.cs.cmu.edu/Data/clueweb09/ -Carnegie梅隆大學的語言技術研究院發佈了ClueWeb09數據集，以幫助大規模網絡的研究。這是10種語言的十億個網頁的抓取。未壓縮的數據集佔用25 TB。

2012-10-16 14:29:50

或者，我該如何練習Hadoop-MapReduce？換句話說，有沒有提供練習的教程或網站？

以下是一些toy problems上手。還檢查Data-Intensive Text Processing with MapReduce，它已經得到了一些像MapReduce中實現的page-rank，連接，索引等算法的僞代碼。

以下是一些隨時間收集的公共數據集。你可能需要挖掘小的。

2012-10-16 14:49:50

回答