2016-03-24 37 views
0

我是NLP新手,我必須爲我的NLP課程解決一個練習。基本上,我收到一個含有縮寫的原始文本,如(CRF,ABC等),還有其他類型的大寫字母(FOOD,HOUSE),我必須對它們進行分類。區分縮寫和簡單大寫的單詞嗎?

我不知道從哪裏開始,你能指點我一些算法嗎?隨機方法可以幫助我解決問題?

回答

0

使用「正規」英文單詞(在Linux,WordNet等上的拼寫字典)的字典,並檢查單詞是否在那裏。其次,使用詞性標註器。如果該單詞不是名詞,則不可能是首字母縮寫詞。最後,檢查現有軟件,例如Acronym Finder和論文(在Google Scholar上搜索「縮寫詞檢測」)。

0

同意fnl。使用包含常用英語單詞的詞性並訓練您的文本數據集。它會自動標記'無','動詞'和'縮寫'。 pos的種類很多,如果你可以選擇一個與你的文本數據更接近的區域會更好。 例如,http://www.cs.cmu.edu/~ark/TweetNLP/爲推文提供了一個pos。

+0

我同意,如果我只有縮寫和名詞,那麼使用pos tagger的想法會有所幫助,但如果我有其他的假縮寫如羅馬字母(I,V,VI)或單字母字母表(甲型肝炎,乙型肝炎或丙型肝炎)。 pos tagger是否足以區分這些情況呢? –