0
我正在使用Python 2.7 64位,我想使用手套預訓練 維基百科語料庫在spacy.By defaut空間是訓練對手套的常見爬行語料庫。任何人提供代碼片段一樣。使用預培訓的手套載體
我正在使用Python 2.7 64位,我想使用手套預訓練 維基百科語料庫在spacy.By defaut空間是訓練對手套的常見爬行語料庫。任何人提供代碼片段一樣。使用預培訓的手套載體
如果你有你的載體已經在標準的文字標籤矢量格式的訓練,則可以使用此示例代碼從spaCy Github添加到spaCy模式:
with open(vectors_loc, 'rb') as file_:
header = file_.readline()
nr_row, nr_dim = header.split()
nlp.vocab.reset_vectors(width=int(nr_dim))
for line in file_:
line = line.rstrip().decode('utf8')
pieces = line.rsplit(' ', int(nr_dim))
word = pieces[0]
vector = numpy.asarray([float(v) for v in pieces[1:]], dtype='f')
nlp.vocab.set_vector(word, vector) # add the vectors to the vocab
什麼可能是更有效的是使用新的CLI API,這將允許您使用自定義向量創建新的空白模型。請注意,使用不同的向量可能會破壞所有其他管道組件(NER,POS,依賴關係),因爲他們期望現有的向量。