我正在尋找Java庫來對用戶生成的文本內容執行一些初始拼寫檢查/數據規範化操作,請想象在Facebook配置文件中輸入的興趣。Java中數據規範化的拼寫糾正
這段文字將在某些時刻(在拼寫糾正之前或之後,無論哪個作品更好)進行標記,還有一些用作搜索(完全匹配)的關鍵字。如果能夠減少拼寫錯誤等來製作更多的匹配,那就太好了。如果校正對於長於一個單詞的令牌更好地執行,則會更好。 「喝咖啡」會變成「喝咖啡」而不是「思考咖啡」。
我發現做拼寫校正下列Java庫:
- JAZZY似乎並沒有被下積極發展。而且,由於在社交網絡配置文件和多詞記號中使用非標準語言,基於字典距離的方法似乎不夠充分。
- APACHE LUCENE似乎有statistical spell checker,應該更適合。這裏的問題將如何創建一個很好的字典? (否則我們不使用Lucene,所以沒有現有的索引。)
歡迎任何建議!
感謝您提供有見地的評論和有趣的書鏈接。 你說得對,我真正想要的是模糊搜索。不過,我會看到如何/如果拼寫檢查適用於我的特定應用程序(也許它現在足夠好了),並重新審視您後面提到的想法。非常感謝! – dareios 2010-02-24 08:20:54