Loking for free ngram dataset

nlp
n-gram

2016-03-22 48 views 0 likes

我正在使用數據挖掘和NLP技術糾正ASR系統輸出中的錯誤，因爲我需要一個n-gram字典。我從wikipedia ngram開始，它在小測試集中給出了令人鼓舞的結果（75％的檢測率）。但是當我在大型數據集上測試我的解決方案時，檢測率下降，因爲維基百科的ngram不夠大，無法覆蓋所有英文單詞。所以我在尋找從網上收集的更大的ngram，我找到了「Google Web 1T 5克」，但是我的實驗室沒有足夠的資源來購買它。如果任何人有這個數據集或知道如何免費得到它，請幫助。Loking for free ngram dataset

來源

2016-03-22 user3487059

回答

Google ngram數據免費提供：http://storage.googleapis.com/books/ngrams/books/datasetsv2.html。它不僅僅是一個TB，而是按年分割，這在大多數用例中並不需要，所以你可以將數據聚合成一個更小的格式。它仍然是來自書籍的文本，這與大多數用戶通常會將其提供給ASR的內容不同。

來源

2016-03-22 18:24:32

非常感謝，實際上我已經開始了Google書籍ngram數據集的聚合。 – user3487059

相關問題

1. DataSet和DataRow for Net Standard 1.5
2. 如何執行ngram到ngram協會
3. Ngram IDF平滑
4. DataSet/DataSet到類的類
5. 提取ngram與R
6. double free or corruption
7. 提高ngram代的方法？
8. Python的Sklearn NGRAM精度降低爲NGRAM長度增加
9. 單值Total Ram/Free Ram free memory/total memory
10. free-jqgrid：getLocalRow在free中返回false -jqgrid4.13.6

11. free from malloc
12. LD_PRELOADing malloc and free
13. 高亮模糊性和NGRAM
14. Solr autosuggest教程邊緣Ngram
15. Solr ngram與數字不符？
16. Solr的NGRAM比賽禍
17. 使用mutate獲取ngram數
18. Pyspark的Ngram頻率排名
19. Ngram的計算是什麼？
20. Solr的NGRAM同義詞Dismax
21. elasticsearch nGram/edgengram部分匹配？
22. NGram按順序搜索
23. ElasticSearch edge-ngram不起作用
24. Html canvas free transform
25. Free-jqGrid navButtonAdd buttonColor
26. Vim：list free keybindings
27. fclose（）然後free（）？
28. database.bak爲FREE
29. Context Free Grammer：Kleene plus
30. Free Transform Android Image