2016-01-26 25 views
-1

我試圖想出一些規則來檢測命名實體,特別是文本中的公司或組織名稱。我認爲把焦點放在動詞上是有道理的。有很多POS Taggers,可以很容易地檢測專有名詞。我個人喜歡StanfordPOSTagger。現在,一旦我擁有專有名詞,我知道它是一個命名實體。然而,要確定它是一家公司的名稱,我需要提出規則,並可能需要規則GazetteersNLP:文本中圍繞組織名稱的一些常見動詞

我正在考慮專注於動詞。公司名稱周圍是否經常出現一組常見動詞?

我可以創建一個帶註釋的語料庫,並顯式地訓練一個機器學習分類器來預測這些動詞,但這是很多工作。如果有人已經對此進行了一些研究,那將會很棒。

另外,可以給其他POS標籤提供線索嗎?不只是動詞。

+0

爲什麼downvote?我應該把這個數據庫組發佈嗎? – AbtPst

+0

是的,你應該。 – alvas

回答

0

Stanford NER system是否適合此用例?它已經檢測到組織,以及人員和其他命名實體類型。

+0

是的!這就是我正在與之合作。問題是,有時它不能正確標記組織 – AbtPst

+0

這就是爲什麼我想增加標記 – AbtPst

+2

你可以看看[TokensRegexNER](https://github.com/stanfordnlp/CoreNLP/blob/master/src/edu /stanford/nlp/pipeline/TokensRegexNERAnnotator.java)作爲用自定義地名錄來擴充斯坦福NER的潛在方式。但是,我懷疑你會很難從訓練有素的NER系統的二次猜測中獲得顯着的改善,而不是使用地名錄。您在問題中提到的常見情況可能已經在NER模型中被捕獲。 –

2

動詞方法似乎是最有前途的。我一直在自己做些什麼來辨別民間故事中的衆生。在此處查看更多關於我的方法:http://www.aaai.org/ocs/index.php/INT/INT7/paper/viewFile/9253/9204 您可能仍需要做一些註釋和培訓,或者使用網絡文本和以下方法查找培訓數據。

如果你正在尋找真正的公司(即非虛構),那麼我建議你只是提取引用表達式(即名詞和多詞表達式),然後檢查一個在線數據庫(一些容易使用API​​),如: