2014-03-03 36 views
17

我正在使用一些NLP庫,(斯坦福和nltk) 斯坦福我看到了演示部分,但只是想問一下是否可以使用它來識別更多的實體類型。是否可以訓練斯坦福NER系統識別更多命名實體類型?

因此,目前斯坦福NER系統(如演示所示)可以將實體識別爲人員(姓名),組織或位置。但被認可的組織僅限於大學或一些大型組織。我想知道是否可以使用它的API來編寫更多實體類型的程序,例如,如果我的輸入是「Apple」或「Square」,它可以將其識別爲公司。

我是否必須創建自己的訓練數據集?另外,如果我想要提取實體及其彼此之間的關係,我覺得我應該使用stanford依賴關係解析器。 我的意思是,首先提取命名實體和其他標記爲「名詞」的部分,並找出它們之間的關係。

我是對的。

謝謝。

回答

8

是的,你需要自己的訓練集。預訓練的斯坦福模型僅將「斯坦福」這個詞作爲一個命名實體,因爲他們已經接受過具有該詞的數據的訓練(或者根據他們使用的功能設置非常相似的詞,我不知道那是什麼)標記爲命名實體。

一旦你有更多的數據,你需要把它放在this question和斯坦福教程中描述的正確格式。

+1

謝謝。所以在我將我的訓練設置爲識別命名實體後,是否可以提取它?像「微軟產品」一樣,我可以將這裏的「微軟」視爲一個組織,將「產品」視爲將它們結合在一起的另一件事情? – JudyJiang

+0

你知道預訓模型是否可以用其他例子進行訓練? –

+0

@ bones.felipe根據FAQ,你不能。 https://nlp.stanford.edu/software/crf-faq.shtml#extend – JamesFrost

4

您可以輕鬆地訓練您自己的數據語料庫。

在斯坦福NER常見問題解答第一個問題就是如何培養我們自己的模型NER

的聯繫是http://nlp.stanford.edu/software/crf-faq.shtml

因此,例如,你可以給訓練數據,如

產品OBJ
of O
Microsoft ORG

同樣,你可以建立你自己的訓練數據和建立一個模型,然後用它來獲得所需的輸出

相關問題