啊,共謀問題。我的專長。
查看它的一種方法是將字典作爲拼寫糾正問題。你想要的是有兩個組件,一個由j_random_hacker指出的編輯距離度量和一個列出所有可接受的縮寫的字典。您可能希望在詞典中包含一個計數,以便更常用的長格式計數更多。
編輯距離模型將通過針對評估指標進行調整來確定。有法術在http://alias-i.com/lingpipe/demos/tutorial/querySpellChecker/read-me.html
檢查你將不會被使用的語言模型來評估編輯,但它會爲您建立的性能指標,編輯距離等一個很好的教程...
布雷克
澄清後續問題:
您的指標將由系統的性能驅動。你看看系統的功能是什麼,錯了什麼,然後你修改編輯距離來更好地建模你想要的。
因此,詞典的分數可以是詞組是否在詞典中。我將從第一個字符匹配開始,在短語中每個單詞得分爲-1,在'and'這個短語中爲-1個跳過的功能單詞,跳過首字母縮寫中的一個字母爲-5。因此,通過查看字典的「bbq」可以與得分爲-8(-1 + -1 + -1 + -5)的「Beer and Bakes Gates」相匹配
「燒烤國家」將需要編輯那比分更好。所以同一個單詞中的字母得分爲-5,跳過的單詞是-6.5(-.5 + - 。5 + - 。5 + -5),這是一個更好的分數。如果您需要任何通用性,這些編輯成本必須在您擁有的幾千個示例的訓練集中進行平衡。
在您做任何事情之前,您需要一種評分縮寫與字符串匹配程度的方法;那麼問題就成爲決定哪個字符串得分最高的問題(在最壞的情況下,您只需計算每個字符的得分,並選出最高的字符)。評分比賽有多種方式,但我想不出任何明顯比「BBQ Smoke and Grill」更高的「燒烤國度」 - 無論如何,*您必須決定使用哪種評分功能。 –