5
我正在做一些NLP,當我發現患者被診斷爲多發性硬化症時。有沒有辦法告訴NLTK某個單詞不是專有名詞,而是名詞?
我想用nltk來告訴我,一個句子的名詞是多發性硬化症。問題是,醫生經常將多發性硬化症稱爲MS,它們被認爲是專有名詞。
例如,這句話,「他的MS在1999年被診斷出來。」被標記爲:[('His', 'PRP$'), ('MS', 'NNP'), ('was', 'VBD'), ('diagnosed', 'VBN'), ('in', 'IN'), ('1999', 'CD'), ('.', '.')]
MS應該是一個名詞。有什麼建議麼?
命名實體識別是一個難題。嘗試[this](http://textminingonline.com/how-to-use-stanford-named-entity-recognizer-ner-in-python-nltk-and-other-programming-languages)。 –
您目前使用默認的POS標記。所以在這種情況下,您需要使用正確的POS標記值來訓練您自己的語料庫。如果不是作爲回退機制,則在使用默認語料庫POS Tagger模型後應該有另一個錯誤糾正層。 – Renien
數據的來源是什麼?是否有可能分享?是否有你希望他們總是名詞的單詞/短語/縮寫列表?你有數據標籤嗎?數據的領域是什麼?什麼是POS標籤的最終目的?回答這些問題將縮小解決您的問題的範圍。 – alvas