2016-01-13 40 views
0

我想訓練一個NER模型印度與自定義NE(命名實體)字典塊。我指的是NLTK斯坦福NER repectively:命名實體識別與NLTK或斯坦福NER使用自定義語料庫

  1. NLTK

我發現nltk.chunk.named_entity.NEChunkParsernechunkparser能夠在一個自定義的語料訓練。但是,文檔或源代碼的評論中沒有規定訓練語料庫的格式。

我在哪裏可以找到NLTK中NER自定義語料庫的一些指南?

  • 斯坦福NER
  • 按照question,斯坦福NER的常見問題給出瞭如何培養的自定義模型NER方向。

    其中一個主要問題是,默認的斯坦福NER不支持印度人。那麼將印度NER語料庫提供給模型是否可行?

    +0

    只要訓練語料庫符合指定的格式,斯坦福NER就可以接受任何語言的培訓。此外,NLTK提供了一個很好的(儘管有一些越野車)接口來使用訓練有素的斯坦福NER標籤。 – Zelong

    回答

    1

    您的訓練語料庫需要位於.tsv文件擴展名中。

    該文件應該有的樣子的:

    約翰PER
    工作Ø
    在澳
    英特爾ORG

    這僅僅是因爲我做的數據表示不知道你所針對的是哪種印度語言。但是您的數據必須始終爲製表符分隔值。首先將是令牌和其他值的關聯標籤。

    我試過建造我的自定義數據(在英文雖然),並建立了模型。

    所以我猜想它幾乎可能爲印度語言也。

    相關問題