您是否知道有哪些大型數據集可用於免費/低成本的Hadoop實驗? 任何指針/鏈接相關讚賞。免費使用Hadoop進行大型數據集實驗
Prefernce:
ATLEAST一個GB的數據。
webserver的生產日誌數據。
他們很少的,我發現迄今:
我們也可以運行我們自己的抓取工具來收集網站上的數據,例如維基百科?任何關於如何做到這一點的指針也是值得讚賞的。
您是否知道有哪些大型數據集可用於免費/低成本的Hadoop實驗? 任何指針/鏈接相關讚賞。免費使用Hadoop進行大型數據集實驗
Prefernce:
ATLEAST一個GB的數據。
webserver的生產日誌數據。
他們很少的,我發現迄今:
我們也可以運行我們自己的抓取工具來收集網站上的數據,例如維基百科?任何關於如何做到這一點的指針也是值得讚賞的。
關於您關於抓取和維基百科問題的幾點意見。
您已鏈接到wikipedia data dumps,您可以使用UMD的Cloud9項目在Hadoop中處理此數據。
他們的網頁上有這樣的:Working with Wikipedia
另一個數據源添加到列表是:
使用爬蟲生成數據應該發佈在另一個關於Hadoop/MapReduce的問題上,我會說。
鏈接「使用維基百科」已死亡。這是替代http://lintool.github.com/Cloud9/docs/content/wikipedia.html? – f13o 2012-08-31 16:10:38
一個明顯的來源:the Stack Overflow trilogy data dumps。這些可以在Creative Commons許可下免費獲取。
@toddlermenot - 轉儲現在託管在Internet Archive上。我更新了鏈接。閱讀它在[SE博客頁面]上更改的原因(https://blog.stackexchange。COM/2014/01 /堆疊交換-CC-數據現在主辦,由這互聯網存檔/)。 – APC 2015-08-09 09:42:13
這是沒有日誌文件,但也許你可以使用來自OpenStreetMap的地球文件:http://wiki.openstreetmap.org/wiki/Planet.osm
CC許可證,約160 GB(解壓縮)
有每個大洲也更小的文件:http://wiki.openstreetmap.org/wiki/World
這是189點的數據集的機器學習(這是Hadoop的克最好的應用之一)的集合: http://archive.ics.uci.edu/ml/datasets.html
datanami最近公佈的鏈接列表:HTTP://www.datanami。 com/2015/01/29/9-places-get-big-data-now/- 或許有人有時間將其轉換爲正確的答案。 – Nickolay 2015-02-02 23:03:57