最近我一直試圖用斯坦福核心NLP訓練n-gram實體。我遵循以下教程 - http://nlp.stanford.edu/software/crf-faq.shtml#b斯坦福NLP訓練n-gram NER
使用此功能,我只能指定單字符標記及其所屬的類。任何人都可以引導我,讓我可以將它擴展到n-gram。我試圖從聊天數據集中提取已知的實體,如電影名稱。
如果我錯誤地解釋了斯坦福教程並且可以用於n-gram培訓,請指導我。
什麼我堅持的是下列財產
#structure of your training file; this tells the classifier
#that the word is in column 0 and the correct answer is in
#column 1
map = word=0,answer=1
這裏的第一列是字(單gram),第二列是實體,例如
CHAPTER O
I O
Emma PERS
Woodhouse PERS
現在,我需要培訓像綠巨人,泰坦尼克等已知實體(比如電影名稱)作爲電影,這種方法很容易。但如果我需要訓練我知道你去年夏天做了什麼或寶寶出門,最好的方法是什麼?
尊敬的@Arun您是否成功地培訓NER爲n-grams?我想培養像科學碩士:教育,電子博士學位:教育。你能指導我嗎?謝謝 – 2017-01-19 13:43:27
@KhalidUsman,感謝您的支持。我已經在下面的答案中使用了LingPipe來實現這一點。訓練數據集體積相當不錯。任何模型都可以正常工作,這取決於你提供的數據集有多好。 – 2017-01-19 16:48:32