2012-09-11 99 views
1

我是機器學習的新手,我需要編寫一個應用程序來檢查名稱是否正確或拼寫錯誤。名稱拼寫檢查機器學習

你能告訴我應該從哪裏開始? 這是最好的算法在這種情況下使用?

+0

這可能會指導你在正確的方向http://stackoverflow.com/questions/2294915/what-algorithm-gives-suggestions-in-a-spell-checker – Zia

+0

另一個來源:[AT&T存檔:UNIX操作系統](http://youtu.be/tc4ROCJYbm0)在視頻中,這個人展示瞭如何簡單地通過管道粘貼不同的小型unix程序來完成一個簡單的拼寫檢查程序。如果問題不大,那是一個簡單的方法。檢查出 ! –

回答

2

如果檢查拼寫是你所需要做的,你可以從一些免費提供的字典中創建一個包含所有單詞的哈希集合,然後檢查輸入的單詞是否在字典中。你的任務是否有其他要求?

+0

我要實現: 拼寫錯誤檢測和 拼寫糾錯 我可以面對這些類型的問題: 非名稱錯誤 排印 同音詞。 應用程序應該實現一個機器學習算法 –

+1

然後,我會建議閱讀齊亞鏈接到的帖子。最相關的部分給你這篇文章http://stackoverflow.com/a/2294926/51260。 此外請從[信息檢索介紹]中查看[本章](http://nlp.stanford.edu/IR-book/html/htmledition/dictionaries-and-tolerant-retrieval-1.html) (http://www-nlp.stanford.edu/IR-book/)。 –

+1

您還可以觀看Dan Jurafsky和Chris Manning給出的Coursera關於[自然語言處理]的講座(https://class.coursera.org/nlp/lecture/preview/index)。搜索第2周 - 拼寫更正。 –

1

Peter Norvig和Stuart Rusell的書「人工智能 - 現代方法」將是一個很好的起點。

1

我建議從norvig spell correct的以下文章開始。它解釋了提供python代碼的拼寫糾正器背後的基本思想。

我想在這裏做的是發展,在不到一個頁面的代碼,玩具拼寫校正,在每秒至少10個字的處理速度達到80%或90%的準確率。

根據這篇文章:「工業強度拼寫校正器的全部細節非常複雜。」您可以從其參考文獻開始。我認爲無論您實施什麼方法都必須具有比此實施更好的準確性/性能