2015-02-11 71 views
0

請幫助我找到用於數據挖掘研究項目的海量數據集。用於研究的大型開放源代碼數據集

,如果你給我建議任何搜索引擎數據(谷歌/雅虎用戶的搜索歷史記錄)或維基百科的用戶查看統計Twitter的用戶鳴叫數據集這將是非常有益的。

我正在研究hadoop框架和數據庫,因此我想要在每個表中的數百萬條記錄。

回答

0

這是百萬首歌曲數據集。

http://labrosa.ee.columbia.edu/millionsong/ 

如果你想提取推文,我會建議Twitter的Streaming API。

https://dev.twitter.com/streaming/overview

+0

嘿謝謝Data-KeeG。 但是,如果你建議我使用一些搜索引擎數據集或Twitter推文數據集,那將會非常好。 因爲我想進一步工作基於配置文件的Web個性化。 這將幫助我挖掘用戶的興趣,我可以在搜索結果上工作。 再次感謝。 – 2015-02-14 15:49:13