2010-03-31 45 views
3

我想做一點輕量級測試和基準標記進行全文搜索,所以數據集應具備的素質:我在哪裏可以下載免費的,文本豐富的數據集?

  • 10,000 - 100,000條記錄。
  • 英文單詞分散性很好。
  • 以CSV或Excel格式 - 即。我不想通過API訪問它。

類似書籍或電影的標題和說明字段將是完美的。我瀏覽了UCI Machine Learning Repo,但它太過於數字化。

回答

1

使用Gutenberg Project。您可以以純文本訪問數千本英文書籍。這就是我曾經使用過的,並對此感到滿意。

+0

謝謝。 http://www.gutenberg.org/wiki/Gutenberg:Feeds – user258980 2010-03-31 19:40:14

相關問題