雙語拼寫檢查算法的測試數據的良好來源？

我最近實現了一個拼寫檢查算法，該算法考慮了二元語音頻率（即將錯誤拼寫的單詞的前一個單詞用於幫助識別正確的拼寫糾正）。雙語拼寫檢查算法的測試數據的良好來源？

現在我想了解我的算法的平均性能。爲此，我打算給算法提供一些拼寫錯誤的單詞，我已經知道正確的拼寫，並檢查我的算法是否提供了正確的校正。 有沒有人知道一些數據集的拼寫錯誤及其修正，我可以用這種方式來評估我的算法？

爲了說明用幾個例子，這是哪門子的數據我後，

buildMap.put("is neccasary", "is necessary"); 
    buildMap.put("was uneque", "was unique"); 
    buildMap.put("of conciderable", "of considerable"); 
    buildMap.put("must rember", "must remember");

這裏第一個字符串中的第一個字是背景字，和第二字是拼寫錯誤字。第二個字符串表示拼寫錯誤的單詞拼寫正確（目標）。

我明顯可以通過編程生成拼寫錯誤（例如，計算編輯距離的一串或兩串字符串），但這並不理想，因爲這些拼寫錯誤可能不會遵循現實世界拼寫錯誤的模式（例如，字符更可能是用另一隻手鍵盤上的另一個鍵盤旁邊的另一個鍵盤替換）。任何建議將不勝感激。

來源

2012-03-20 smessing

有沒有找到這個數據的好資料？ – 2015-04-13 14:40:27

WikiEdits Corpus是從維基百科的編輯歷史中編譯的拼寫錯誤的好列表。

Here is a paper describing the corpus and the file format。

來源

2015-04-13 14:56:33

雙語拼寫檢查算法的測試數據的良好來源？

回答

相關問題