2017-04-27 86 views
0

我正在使用Python 2.7 64位,我想使用手套預訓練 維基百科語料庫在spacy.By defaut空間是訓練對手套的常見爬行語料庫。任何人提供代碼片段一樣。使用預培訓的手套載體

回答

0

如果你有你的載體已經在標準的文字標籤矢量格式的訓練,則可以使用此示例代碼從spaCy Github添加到spaCy模式:

with open(vectors_loc, 'rb') as file_: 
    header = file_.readline() 
    nr_row, nr_dim = header.split() 
    nlp.vocab.reset_vectors(width=int(nr_dim)) 
    for line in file_: 
     line = line.rstrip().decode('utf8') 
     pieces = line.rsplit(' ', int(nr_dim)) 
     word = pieces[0] 
     vector = numpy.asarray([float(v) for v in pieces[1:]], dtype='f') 
     nlp.vocab.set_vector(word, vector) # add the vectors to the vocab 

什麼可能是更有效的是使用新的CLI API,這將允許您使用自定義向量創建新的空白模型。請注意,使用不同的向量可能會破壞所有其他管道組件(NER,POS,依賴關係),因爲他們期望現有的向量。