給出兩個文檔,我想計算它們之間的相似度。我有措施找出餘弦距離,N-gram和tf-idf使用這個: This is a previously asked questionpython中兩個文檔的比較
我想知道,還有什麼需要使用這些函數來完成。
而且,我已經嘗試推行Word2Vec,下面我試圖找到相似之處使用下面的代碼:
for i in range(len(Words)):
print i
for k in range(len(Words)):
net_sim = 0.0
for j in range(len(Words.ix[i]['A'])):
sim = 0.0
for l in range(len(Words.ix[k]['A'])):
if sim < model.similarity(Words.ix[i]['A'][j],Words.ix[k]['A'][l]):
sim = model.similarity(Words.ix[i]['A'][j],Words.ix[k]['A'][l])
net_sim += sim
Similarity.ix[i][k] = net_sim/len(Words.ix[i]['A'])
對於曾經字一個給定的文檔中,我試圖找到第二個文檔中最相近的詞並添加它們的相似性。然後,我除以單詞的數量,以便將其歸一化爲0到1的範圍。 這裏,單詞是一個DataFrame,由單獨的行中的不同文檔的單詞組成,模型是一個Word2Vec模型。這個過程需要花費很多時間,我希望優化它,從而尋找不同的方法
請告訴我們你已經擁有的代碼! –
http://stackoverflow.com/a/22577329/6350407 –
請向我們展示您已擁有的代碼**!對不起,但是因爲你把代碼放在一起,你找不到別的地方。你必須至少表現出一些努力。 –