我想做一點輕量級測試和基準標記進行全文搜索,所以數據集應具備的素質:我在哪裏可以下載免費的,文本豐富的數據集?
- 10,000 - 100,000條記錄。
- 英文單詞分散性很好。
- 以CSV或Excel格式 - 即。我不想通過API訪問它。
類似書籍或電影的標題和說明字段將是完美的。我瀏覽了UCI Machine Learning Repo,但它太過於數字化。
我想做一點輕量級測試和基準標記進行全文搜索,所以數據集應具備的素質:我在哪裏可以下載免費的,文本豐富的數據集?
類似書籍或電影的標題和說明字段將是完美的。我瀏覽了UCI Machine Learning Repo,但它太過於數字化。
如果你沒有找到一個,你可以使用Lorem存有發生器創建一個
你也可以得到充分的StackOverflow的數據轉儲
http://blog.stackoverflow.com/2009/06/stack-overflow-creative-commons-data-dump/
使用Gutenberg Project。您可以以純文本訪問數千本英文書籍。這就是我曾經使用過的,並對此感到滿意。
謝謝。 http://www.gutenberg.org/wiki/Gutenberg:Feeds – user258980 2010-03-31 19:40:14
謝謝。這也導致我: http://download.freebase.com/datadumps/ – user258980 2010-03-31 19:37:00