0
從遠程數據源獲取文本小數點(通常不會超過100個字符),全部大寫。這主要是自然語言,但散佈的首字母縮略詞和功能(如+和 - )。我想要做的是將這些文本轉換爲可讀形式,即將大部分小寫字母縮寫,除了首字母縮寫詞和恰當的大寫名詞和名稱(這是德語,其中大量的單詞大寫,用英語)。文本自動換算
我更喜歡Cocoa(OS X)的解決方案,但歡迎任何其他方法。我閱讀了關於NSLinguisticTagger(例如in this question)的文章,但似乎標籤單詞高度依賴於已經合適的詞彙。
這實際上是我現在所做的(POS標記除外)。然而,這存在一些問題(例如,首字母縮寫詞保持小寫),並且由於語言標記器需要適當的資本空間來檢測名詞,所以這是一個需要解決的經典雞蛋問題。 –
我猜想大多數縮略詞不會通過拼寫檢查,也可能不是太有意義(有點像[這個問題](http://stackoverflow.com/a/6298193/583834)) - 也許檢查類似那可以工作?如果不是的話,你是否期待特定集合中的首字母縮寫詞,還是總是有新的縮略語出現? – arturomp