2010-04-20 40 views
35

您是否知道有哪些大型數據集可用於免費/低成本的Hadoop實驗? 任何指針/鏈接相關讚賞。免費使用Hadoop進行大型數據集實驗

Prefernce:

  • ATLEAST一個GB的數據。

  • webserver的生產日誌數據。

他們很少的,我發現迄今:

  1. Wikipedia dump

  2. http://wiki.freebase.com/wiki/Data_dumps

  3. http://aws.amazon.com/publicdatasets/

我們也可以運行我們自己的抓取工具來收集網站上的數據,例如維基百科?任何關於如何做到這一點的指針也是值得讚賞的。

+0

datanami最近公佈的鏈接列表:HTTP://www.datanami。 com/2015/01/29/9-places-get-big-data-now/- 或許有人有時間將其轉換爲正確的答案。 – Nickolay 2015-02-02 23:03:57

回答

10

關於您關於抓取和維基百科問題的幾點意見。

您已鏈接到wikipedia data dumps,您可以使用UMD的Cloud9項目在Hadoop中處理此數據。

他們的網頁上有這樣的:Working with Wikipedia

另一個數據源添加到列表是:

  • ClueWeb09 - - 2月09 5TB的壓縮之間收集1名十億的網頁。

使用爬蟲生成數據應該發佈在另一個關於Hadoop/MapReduce的問題上,我會說。

+1

鏈接「使用維基百科」已死亡。這是替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html? – f13o 2012-08-31 16:10:38

10

一個明顯的來源:the Stack Overflow trilogy data dumps。這些可以在Creative Commons許可下免費獲取。

+0

@toddlermenot - 轉儲現在託管在Internet Archive上。我更新了鏈接。閱讀它在[SE博客頁面]上更改的原因(https://blog.stackexchange。COM/2014/01 /堆疊交換-CC-數據現在主辦,由這互聯網存檔/)。 – APC 2015-08-09 09:42:13

相關問題