我想熟悉Hadoop-MapReduce。在研究了這些概念的理論知識後,我想對他們進行練習。用於Hadoop-MapReduce的小數據集
但是,我找不到這種技術的小數據集(高達3 Gb)。我在哪裏可以找到數據集來練習?
或者,我該如何練習Hadoop-MapReduce?換句話說,有沒有提供練習的教程或網站?
我想熟悉Hadoop-MapReduce。在研究了這些概念的理論知識後,我想對他們進行練習。用於Hadoop-MapReduce的小數據集
但是,我找不到這種技術的小數據集(高達3 Gb)。我在哪裏可以找到數據集來練習?
或者,我該如何練習Hadoop-MapReduce?換句話說,有沒有提供練習的教程或網站?
爲什麼不自己創建一些數據集?
一個非常簡單的事情就是用一個數以百萬計的隨機數填充一個文件,然後使用Hadoop來查找重複,三元組,素數,重複數的因子等等。
當然,它不像尋找常見的Facebook朋友那樣有趣,但它應該足以得到一點Hadoop的做法。
可公開訪問的數據集,您可以下載並隨時使用。下面是一個 幾個例子。
http://www.netflixprize.com/index - 作爲比賽的一部分,它 用戶發佈的收視數據集來挑戰人們開發更好的 推薦算法。未壓縮的數據在2 GB +。它包含 來自480 K用戶的17 K電影的100 M +電影評級。
http://aws.amazon.com/publicdatasets/ - 例如,其中一個 生物數據集是大約550 GB的註釋人類基因組數據。在 經濟學下,您可以找到數據集,例如2000年美國人口普查(大約 200 GB)。
http://boston.lti.cs.cmu.edu/Data/clueweb09/ -Carnegie梅隆大學的 語言技術研究院發佈了ClueWeb09數據集,以幫助 大規模網絡的研究。這是10種語言的十億個網頁的抓取。未壓縮的數據集佔用25 TB。
或者,我該如何練習Hadoop-MapReduce?換句話說,有沒有提供練習的教程或網站?
以下是一些toy problems上手。還檢查Data-Intensive Text Processing with MapReduce,它已經得到了一些像MapReduce中實現的page-rank,連接,索引等算法的僞代碼。
以下是一些隨時間收集的公共數據集。你可能需要挖掘小的。
http://wiki.gephi.org/index.php/Datasets
Download large data for Hadoop
http://datamob.org/datasets
http://konect.uni-koblenz.de/
http://snap.stanford.edu/data/
http://archive.ics.uci.edu/ml/
https://bitly.com/bundles/hmason/1
http://www.inside-r.org/howto/finding-data-internet
https://docs.google.com/document/pub?id=1CNBmPiuvcU8gKTMvTQStIbTZcO_CTLMvPxxBrs0hHCg
http://ftp3.ncdc.noaa.gov/pub/data/noaa/1990/
http://data.cityofsantacruz.com/
對我來說這是費時的事,而不是一個好習慣。在我看來,處理有意義的數據集將提高我的解決問題的能力。 – user1743323
我不同意這兩個,但當然是由你來決定。我認爲簡單的人造數據是一個更好的開始,因爲您不必先理解和解析或預處理它。而且,通過簡單的任務和簡單的數據,您可以更輕鬆地驗證您的程序是否在實際工作。祝你好運與基因組或電影評級。 – rolve