NER的Learning2Search（vowpal-wabbit）給出奇怪的結果

我們正在嘗試使用來自vowpal-wabbit的Learning2Search for NER 我們正在使用ATIS數據集。NER的Learning2Search（vowpal-wabbit）給出奇怪的結果

在ATIS中有127個實體（包括其他類別）訓練集有4978個測試有893個句子。

如何過，當我們在測試中運行它設置它映射的一切無論是1級（航空公司名稱）或2類（機場代碼） 這是有線。

我們嘗試了其他數據集（https://github.com/glample/tagger/tree/master/dataset），相同的行爲。

看起來我沒有用正確的方法。任何指針都會有很大的幫助。

代碼片段：

with open("/tweetsdb/ner/datasets/atis.pkl") as f: 
    train, test, dicts = cPickle.load(f) 

idx2words = {v: k for k, v in dicts['words2idx'].iteritems()} 
idx2labels = {v: k for k, v in dicts['labels2idx'].iteritems()} 
idx2tables = {v: k for k, v in dicts['tables2idx'].iteritems()} 


#Convert the dataset into a format compatible with Vowpal Wabbit 
training_set = [] 
for i in xrange(len(train[0])): 
    zip_label_ent_idx = zip(train[2][i], train[0][i]) 
    label_ent_actual = [(int(i[0]), idx2words[i[1]]) for i in zip_label_ent_idx] 
    training_set.append(label_ent_actual) 


# Do like wise to get test chunk 

class SequenceLabeler(pyvw.SearchTask): 
    def __init__(self, vw, sch, num_actions): 
     pyvw.SearchTask.__init__(self, vw, sch, num_actions) 

     sch.set_options(sch.AUTO_HAMMING_LOSS | sch.AUTO_CONDITION_FEATURES) 

    def _run(self, sentence): 
     output = [] 
     for n in range(len(sentence)): 
      pos,word = sentence[n] 

      with self.vw.example({'w': [word]}) as ex: 
       pred = self.sch.predict(examples=ex, my_tag=n+1, oracle=pos, condition=[(n,'p'), (n-1, 'q')]) 
       output.append(pred) 
     return output 

vw = pyvw.vw("--search 3 --search_task hook --ring_size 1024")

代碼訓練模型：

#Training 
sequenceLabeler = vw.init_search_task(SequenceLabeler) 
for i in xrange(3): 
    sequenceLabeler.learn(training_set[:10])

代碼預測：

pred = [] 
for i in random.sample(xrange(len(test_set)), 10): 
    test_example = [ (999, word[1]) for word in test_set[i] ] 
    test_labels = [ label[0] for label in test_set[i] ] 
    print 'input sentence:', ' '.join([word[1] for word in test_set[i]]) 
    print 'actual labels:', ' '.join([str(label) for label in test_labels]) 
    print 'predicted labels:', ' '.join([str(pred) for pred in sequenceLabeler.predict(test_example)])

要查看完整的代碼，請參閱本筆記本： https://github.com/nsanthanam/ner/blob/master/vowpal_wabbit_atis.ipynb

來源

2017-04-05 Anuj Gupta

我也是這個算法的新手，但最近做了一些試點研究。

您的問題，答案是，你在

vw = pyvw.vw("--search 3 --search_task hook --ring_size 1024")

設定了錯誤的參數在這裏，搜索應該被設置爲「127」，並以這種方式，大衆將使用127名的標籤。

vw = pyvw.vw("--search 127 --search_task hook --ring_size 1024")

此外，我的感覺是，vw在很多標籤上都不能很好地工作。我可能是錯的，請讓我知道你的結果:)

來源

2017-04-12 02:58:03 acepor

NER的Learning2Search（vowpal-wabbit）給出奇怪的結果

回答

相關問題