2014-07-24 14 views
0

我想對一些(圖形)數據庫進行基準測試並尋找一些大的複雜數據集。數據集的大小應該在2 TB到5 TB之間。你是否知道滿足這些標準的任何樣本數據集(可能是開放政府或科學數據)?尋找大的,複雜的樣本數據

回答

2

這些應該符合你的要求

  • 1000 Genomes項目,使260 TB的人類基因組數據的可用
  • Internet Archive正在可供研究的80 TB網絡爬蟲
  • 的TREC招待會上作上述ClueWeb09數據集可在幾年前提供。您必須簽署一份協議,並支付一筆不菲的費用(高達610美元)以涵蓋運動鞋網絡數據傳輸。數據大約是5TB壓縮的。
  • ClueWeb12現已推出,因爲是遊離鹼註解,FACC1
  • CNetS在印第安納大學使得2.5 TB click dataset可用
  • ICWSM取得了很大的語料庫供他們2011 conference的博客文章。你必須註冊(一個實際的表格,而不是一個在線表格),但它是免費的。它大約壓縮了2.1TB。
  • Proteome Commons可以提供多個大型數據集。最大的Personal Genome Project大小爲1.1TB。

還有其他幾個超過100 GB的大小。