在NLP中有一個概念Gazetteer
,它對創建註釋非常有用。據我瞭解,NLP:地名詞典是一個騙子
A gazetteer consists of a set of lists containing names of entities such as cities, organisations, days of the week, etc. These lists are used to find occurrences of these names in text, e.g. for the task of named entity recognition.
所以它本質上是一種查找。這不是一種欺騙?如果我們使用Gazetteer
來檢測命名實體,那麼沒有太多Natural Language Processing
正在進行。理想情況下,我想用NLP
技術來檢測命名實體。否則,它如何比正則表達式模式匹配更好。
這有道理嗎?
是的。再一次,有趣的問題,但更適合datascience.stackexchange.com =)想象一下,如果我從來沒有見過實體字符串,我不能從上下文猜測,是否從測試句子是一個實體。我會將它標記爲實體嗎?現在想象一下,如果我無法從上下文中猜測出測試句子中的某個東西是否是一個實體,但我知道從我的「知識庫」或「地名詞典」中可以看出,這個東西是一個實體。我會將它標記爲實體嗎? – alvas
謝謝@alvas我想我想說的是,我們可以通過使用地名錄而不是正則表達式匹配獲得多少性能增益?我意識到創建一個匹配所有可能的組織名稱的正則表達式是不可能的。但爲什麼不爲所有這些名稱創建一個查找表?隨着新的名字和反饋進來 – AbtPst
我將發佈在datascience.stackexchange.com以及 – AbtPst