免費使用Hadoop進行大型數據集實驗

您是否知道有哪些大型數據集可用於免費/低成本的Hadoop實驗？任何指針/鏈接相關讚賞。免費使用Hadoop進行大型數據集實驗

Prefernce：

ATLEAST一個GB的數據。
webserver的生產日誌數據。

他們很少的，我發現迄今：

我們也可以運行我們自己的抓取工具來收集網站上的數據，例如維基百科？任何關於如何做到這一點的指針也是值得讚賞的。

2010-04-20 Sundar

datanami最近公佈的鏈接列表：HTTP：//www.datanami。 com/2015/01/29/9-places-get-big-data-now/- 或許有人有時間將其轉換爲正確的答案。 – Nickolay 2015-02-02 23:03:57

關於您關於抓取和維基百科問題的幾點意見。

您已鏈接到wikipedia data dumps，您可以使用UMD的Cloud9項目在Hadoop中處理此數據。

他們的網頁上有這樣的：Working with Wikipedia

另一個數據源添加到列表是：

ClueWeb09 - - 2月09 5TB的壓縮之間收集1名十億的網頁。

使用爬蟲生成數據應該發佈在另一個關於Hadoop/MapReduce的問題上，我會說。

來源

2010-04-22 22:17:04

鏈接「使用維基百科」已死亡。這是替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html？ – f13o 2012-08-31 16:10:38

一個明顯的來源：the Stack Overflow trilogy data dumps。這些可以在Creative Commons許可下免費獲取。

來源

2010-04-20 11:25:12 APC

@toddlermenot - 轉儲現在託管在Internet Archive上。我更新了鏈接。閱讀它在[SE博客頁面]上更改的原因（https：//blog.stackexchange。COM/2014/01 /堆疊交換-CC-數據現在主辦，由這互聯網存檔/）。 – APC 2015-08-09 09:42:13

這是沒有日誌文件，但也許你可以使用來自OpenStreetMap的地球文件：http://wiki.openstreetmap.org/wiki/Planet.osm

CC許可證，約160 GB（解壓縮）

有每個大洲也更小的文件：http://wiki.openstreetmap.org/wiki/World

來源

2010-04-20 11:33:06 Olvagor

這是189點的數據集的機器學習（這是Hadoop的克最好的應用之一）的集合： http://archive.ics.uci.edu/ml/datasets.html

來源

2010-04-23 13:15:48