命名實體識別與NLTK或斯坦福NER使用自定義語料庫

我想訓練一個NER模型印度與自定義NE（命名實體）字典塊。我指的是NLTK斯坦福NER repectively：命名實體識別與NLTK或斯坦福NER使用自定義語料庫

我發現nltk.chunk.named_entity.NEChunkParsernechunkparser能夠在一個自定義的語料訓練。但是，文檔或源代碼的評論中沒有規定訓練語料庫的格式。

我在哪裏可以找到NLTK中NER自定義語料庫的一些指南？

斯坦福NER

按照question，斯坦福NER的常見問題給出瞭如何培養的自定義模型NER方向。

其中一個主要問題是，默認的斯坦福NER不支持印度人。那麼將印度NER語料庫提供給模型是否可行？

2016-01-13 Zelong

只要訓練語料庫符合指定的格式，斯坦福NER就可以接受任何語言的培訓。此外，NLTK提供了一個很好的（儘管有一些越野車）接口來使用訓練有素的斯坦福NER標籤。 – Zelong

您的訓練語料庫需要位於.tsv文件擴展名中。

該文件應該有的樣子的：

約翰PER
工作Ø
在澳
英特爾ORG

這僅僅是因爲我做的數據表示不知道你所針對的是哪種印度語言。但是您的數據必須始終爲製表符分隔值。首先將是令牌和其他值的關聯標籤。

我試過建造我的自定義數據（在英文雖然），並建立了模型。

所以我猜想它幾乎可能爲印度語言也。

2016-01-19 13:12:49

回答