我偶然發現了一個工具,該工具檢查文本中使用的單詞是否來自前1000個最常用單詞(英語或基於某些形式的數據庫) - http://xkcd.com/simplewriter/立陶宛語字母在xkcd的簡單作家(Ace編輯器)中將文字拆分爲單詞
我很感興趣,它是如何構建的,我很納悶,爲什麼立陶宛的字符,如ąčęėįšųūž被視爲單詞邊界?
正如我所看到的,字符集設置爲UTF-8,所以這些字母不應該被虐待。
我正在考慮爲立陶宛語建立一個類似的工具,並且知道什麼標準詞被拆分或Ace編輯器代碼的哪個部分負責將是非常有用的。
王牌編輯代碼:https://github.com/ajaxorg/ace-builds/blob/master/src/ace.js
它是開源的,爲什麼不試試先搞清楚自己呢? –
我投票結束這個問題作爲題外話,因爲它是一個外包請求。 –