2014-01-13 65 views
0

從遠程數據源獲取文本小數點(通常不會超過100個字符),全部大寫。這主要是自然語言,但散佈的首字母縮略詞和功能(如+和 - )。我想要做的是將這些文本轉換爲可讀形式,即將大部分小寫字母縮寫,除了首字母縮寫詞和恰當的大寫名詞和名稱(這是德語,其中大量的單詞大寫,用英語)。文本自動換算

我更喜歡Cocoa(OS X)的解決方案,但歡迎任何其他方法。我閱讀了關於NSLinguisticTagger(例如in this question)的文章,但似乎標籤單詞高度依賴於已經合適的詞彙。

回答

1

我會通過兩遍。首先將其轉換爲全部小寫字母(句子的開頭除外),然後對其執行拼寫檢查。希望能把大部分專有名詞和首字母縮寫變成大寫。

這就是如果你想使用現有的Cocoa框架。

+0

這實際上是我現在所做的(POS標記除外)。然而,這存在一些問題(例如,首字母縮寫詞保持小寫),並且由於語言標記器需要適當的資本空間來檢測名詞,所以這是一個需要解決的經典雞蛋問題。 –

+0

我猜想大多數縮略詞不會通過拼寫檢查,也可能不是太有意義(有點像[這個問題](http://stackoverflow.com/a/6298193/583834)) - 也許檢查類似那可以工作?如果不是的話,你是否期待特定集合中的首字母縮寫詞,還是總是有新的縮略語出現? – arturomp