2014-01-29 30 views
-1

我目前正在做文本分類,並發現在語料庫中的某些文檔有拼寫錯誤,如「去」寫爲「geos」,「可用」寫爲「可用」。我用524個智能停用詞來消除停用詞。這種拼寫錯誤導致停止詞不能正確地從語料庫中刪除,並駐留在那裏,這可能會影響我的分類器性能。我正在使用20個新聞組數據集。爲情感分類修正拼寫嗎?

我應該如何使用Java中的英語拼寫更正?

回答

1

請參照這一點,你可以得到一個想法 http://code.google.com/p/google-api-spelling-java/

+0

我給它一個嘗試,但才知道,谷歌已經關閉了他們的拼寫檢查服務很久以前我覺得月,2013年後其API上面提到變得毫無用處。我已經開始使用Jazzy API進行拼寫檢查。它非常容易和好用.. –