是否可以訓練斯坦福NER系統識別更多命名實體類型？

我正在使用一些NLP庫，（斯坦福和nltk）斯坦福我看到了演示部分，但只是想問一下是否可以使用它來識別更多的實體類型。是否可以訓練斯坦福NER系統識別更多命名實體類型？

因此，目前斯坦福NER系統（如演示所示）可以將實體識別爲人員（姓名），組織或位置。但被認可的組織僅限於大學或一些大型組織。我想知道是否可以使用它的API來編寫更多實體類型的程序，例如，如果我的輸入是「Apple」或「Square」，它可以將其識別爲公司。

我是否必須創建自己的訓練數據集？另外，如果我想要提取實體及其彼此之間的關係，我覺得我應該使用stanford依賴關係解析器。我的意思是，首先提取命名實體和其他標記爲「名詞」的部分，並找出它們之間的關係。

我是對的。

謝謝。

2014-03-03 JudyJiang

是的，你需要自己的訓練集。預訓練的斯坦福模型僅將「斯坦福」這個詞作爲一個命名實體，因爲他們已經接受過具有該詞的數據的訓練（或者根據他們使用的功能設置非常相似的詞，我不知道那是什麼）標記爲命名實體。

一旦你有更多的數據，你需要把它放在this question和斯坦福教程中描述的正確格式。

2014-03-04 11:19:32 mbatchkarov

謝謝。所以在我將我的訓練設置爲識別命名實體後，是否可以提取它？像「微軟產品」一樣，我可以將這裏的「微軟」視爲一個組織，將「產品」視爲將它們結合在一起的另一件事情？ – JudyJiang

你知道預訓模型是否可以用其他例子進行訓練？ –

@ bones.felipe根據FAQ，你不能。 https://nlp.stanford.edu/software/crf-faq.shtml#extend – JamesFrost

您可以輕鬆地訓練您自己的數據語料庫。

在斯坦福NER常見問題解答第一個問題就是如何培養我們自己的模型NER

因此，例如，你可以給訓練數據，如

產品OBJ
of O
Microsoft ORG

同樣，你可以建立你自己的訓練數據和建立一個模型，然後用它來獲得所需的輸出

2015-12-28 11:19:10

回答