對於包含公司名稱的文本,我想培訓一個自動標記承包商(執行任務的公司)和委託人(聘用承包商的公司)的模型。命名實體識別:如何標記訓練集並選擇算法?
的例句是:
花公司聘請大的顧問認爲制定外包戰略。
與花公司作爲本金和大想想作爲承包商。
我的第一個問題:是否足夠標記我的訓練集中的校長和承包商,還是更好地另外使用POS標記?
換句話說,無論是
花/主要Inc./PRINCIPAL僱用/ NN的/ NN顧問/ NN的/ NN大/承包商想想/承包商/ NN開發/ NN AN/NN外包/ NN戰略/ NN ./。
或
花/主要Inc./PRINCIPAL僱用/ VBZ的/ DT顧問/ NNS/IN大/承包商想想/承包商/開發/ VB的/ DT外包/ NN戰略/ NN ./。
第二個問題:一旦我有了我的訓練集,nltk-package的哪個或哪些算法是最有前途的? N-Gram Tagger,Brill Tagger,TnT Tagger,Maxent分類器,樸素貝葉斯,...?或者我在這裏完全走錯了路?
我是NLP的新手,我只是想徵詢一下建議,然後再投入大量時間來標記我的訓練集。而我的文字是德文,這可能會增加一些困難......感謝您的任何建議!
'大部分作品都顯示出來 - 聽起來很蓬鬆,而且我知道事實並非如此。更不用說你暗示POS是一種形態特徵,而且大寫字母與POS相比,這兩者都不是真的。 –
看看有關NER/POS的http://l2r.cs.uiuc.edu/~danr/Papers/RatinovRo09.pdf。另外,我並不是說POS是一種形態特徵,但是對於NER來說,如果你不使用POS(它給你NNP),你將不得不使用一些形態特徵或至少大寫字母。 – eldams
該文章將POS顯示爲可能使用的功能的示例。說需要POS標籤是非常不同的。同樣,標準的POS標籤(特別是NLTK中的標籤)在新文本中的準確度通常僅爲60-70%,因此在其上構建NER就像在沙灘上建造城堡一樣。另外你的第二點是說:如果你不使用這個功能,你必須使用其他功能。 Conll(最普遍的NER語料庫)不包含POS,這使得這是一個相當有爭議的問題。 –