2016-03-22 19 views
0

我正在使用數據挖掘和NLP技術糾正ASR系統輸出中的錯誤,因爲我需要一個n-gram字典。我從wikipedia ngram開始,它在小測試集中給出了令人鼓舞的結果(75%的檢測率)。但是當我在大型數據集上測試我的解決方案時,檢測率下降,因爲維基百科的ngram不夠大,無法覆蓋所有英文單詞。所以我在尋找從網上收集的更大的ngram,我找到了「Google Web 1T 5克」,但是我的實驗室沒有足夠的資源來購買它。 如果任何人有這個數據集或知道如何免費得到它,請幫助。Loking for free ngram dataset

回答

2

Google ngram數據免費提供:http://storage.googleapis.com/books/ngrams/books/datasetsv2.html。它不僅僅是一個TB,而是按年分割,這在大多數用例中並不需要,所以你可以將數據聚合成一個更小的格式。它仍然是來自書籍的文本,這與大多數用戶通常會將其提供給ASR的內容不同。

+0

非常感謝,實際上我已經開始了Google書籍ngram數據集的聚合。 – user3487059