3
我使用函數來計算一對文檔之間的相似度,並且想要使用此相似性度量執行聚類。
到目前爲止的代碼使用相似函數進行聚類scikit-learn
Sim=np.zeros((n, n)) # create a numpy arrary
i=0
j=0
for i in range(0,n):
for j in range(i,n):
if i==j:
Sim[i][j]=1
else:
Sim[i][j]=simfunction(list_doc[i],list_doc[j]) # calculate similarity between documents i and j using simfunction
Sim=Sim+ Sim.T - np.diag(Sim.diagonal()) # complete the symmetric matrix
AggClusterDistObj=AgglomerativeClustering(n_clusters=num_cluster,linkage='average',affinity="precomputed")
Res_Labels=AggClusterDistObj.fit_predict(Sim)
我擔心的是,在這裏我用了一個類似的功能,我想按照文件應該是disimilarity矩陣,我怎麼可以把它改成相異矩陣。 還有什麼會是一個更有效的方式來做到這一點。