我試圖想出一些規則來檢測命名實體,特別是文本中的公司或組織名稱。我認爲把焦點放在動詞上是有道理的。有很多POS Taggers
,可以很容易地檢測專有名詞。我個人喜歡StanfordPOSTagger
。現在,一旦我擁有專有名詞,我知道它是一個命名實體。然而,要確定它是一家公司的名稱,我需要提出規則,並可能需要規則Gazetteers
NLP:文本中圍繞組織名稱的一些常見動詞
我正在考慮專注於動詞。公司名稱周圍是否經常出現一組常見動詞?
我可以創建一個帶註釋的語料庫,並顯式地訓練一個機器學習分類器來預測這些動詞,但這是很多工作。如果有人已經對此進行了一些研究,那將會很棒。
另外,可以給其他POS
標籤提供線索嗎?不只是動詞。
爲什麼downvote?我應該把這個數據庫組發佈嗎? – AbtPst
是的,你應該。 – alvas