我想知道需要處理多少個文檔或句子或單詞,才能獲得良好的域語言模型,並將其用於語音識別工具,如CMU Sphinx。語料庫有多大才能爲獅身人面像創建語言模型?
2
A
回答
2
要爲小型域創建一個體面的語言模型,它通常足以擁有大約100 MB的文本。您可以將它們與通用語言模型混合使用,以更好地概括語言模型。
要創建通用語言模型,開發人員需要使用非常大的語料庫。例如,有一個Google 1TB語料庫,其中包含數百萬字和太字節的數據。它的trigram部分大約是40Gb的bigram數量,但它必須是100TB的文本。
0
添加到Nikolay的回答:
這不是一件小事。生成語言模型是一項時間和資源密集型任務。
如果你想擁有一個「好」的語言模型,你將需要一個大的或非常大的文本語料庫來訓練一個語言模型(想想幾年華爾街日記文本的數量級)。
「好」的意思是:如果語言模型將能夠從訓練數據,以新的和以前看不到的輸入數據
你應該看看的獅身人面像和HTK語言模型工具包的文檔來概括。
請檢查這兩個線程:
Building openears compatible language model
你可以採取一個更一般的語言模型的基礎上,一個更大的語料庫,並用它插你的小語言模型..如回退的語言模型...但這不是一項簡單的任務。
看到:http://en.wikipedia.org/wiki/Katz「s_back-off_model
相關問題
- 1. 獅身人面像4整合語言模型
- 2. 獅身人面像0.6.3:這些語言模塊無法找到
- 3. 獅身人面像和多語言搜索||按屬性搜索
- 4. 印度英語CMU獅身人面像
- 5. 獅身人面像句查詢語句
- 6. 獅身人面像文檔語言,版本和下載鏈接
- 7. 擴展獅身人面像以支持本地語言
- 8. 獅身人面像:突出顯示的支持語言列表?
- 9. 獅身人面像 - 記錄Django模型
- 10. 獅身人面像語音識別器中的其他語言支持
- 11. Lda on Bi(多語言語料庫)
- 12. 思維獅身人面像找不到獅身人面像
- 13. 多到許多與獅身人面像
- 14. 思維獅身人面像:單一模型的多個指標?
- 15. 獅身人面像'未能創建過程。'
- 16. 獅身人面像和大數據
- 17. 獅身人面像匹配模式
- 18. 在獅身人面像中,我如何創建可鏈接的「術語」部分而沒有大量開銷?
- 19. 的Python - 獅身人面像和ReadtheDoc - 未顯示正確的語言
- 20. 不能在python-獅身人面像
- 21. 獅身人面像更新性能
- 22. 獅身人面像不能索引
- 23. 能#擰我的獅身人面像
- 24. 獅身人面像時間戳功能
- 25. 搜索多列與獅身人面像
- 26. 獅身人面像多索引
- 27. 獅身人面像 - 使用多核心
- 28. 獅身人面像查詢
- 29. 加速獅身人面像?
- 30. 獅身人面像GROUP BY
我在哪裏可以下載這個1TB文集? –
谷歌的數據可以從最不發達國家購買。 http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC2006T13另請參閱http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to -you.html –