0
我正在使用數據挖掘和NLP技術糾正ASR系統輸出中的錯誤,因爲我需要一個n-gram字典。我從wikipedia ngram開始,它在小測試集中給出了令人鼓舞的結果(75%的檢測率)。但是當我在大型數據集上測試我的解決方案時,檢測率下降,因爲維基百科的ngram不夠大,無法覆蓋所有英文單詞。所以我在尋找從網上收集的更大的ngram,我找到了「Google Web 1T 5克」,但是我的實驗室沒有足夠的資源來購買它。 如果任何人有這個數據集或知道如何免費得到它,請幫助。Loking for free ngram dataset
非常感謝,實際上我已經開始了Google書籍ngram數據集的聚合。 – user3487059