我使用向量來表示單詞上下文,我需要將上下文彼此進行比較。以下是我的問題的簡化版本:比較上下文向量
假設我有一個向量a=[1,1,15,2,0]
。然後我有一個向量b=[0,0,15,0,0]
和c=[1,1,11,0,1]
。當通過餘弦相似性比較兩個向量時,b
最接近a
。但是,由於向量代表上下文c
在我的情況下更有意義,因爲b
只是恰好與原始文件共有一個詞並具有相同分數的上下文。
我怎樣才能返回c
最相似?另一種相似性測量或者,也許我的推理在某個地方存在缺陷?
正如我所說,這是我的問題的簡化。我已經使矢量正常化,並且我正在使用對數可能性來評分上下文單詞。
謝謝!
這些向量中的數字代表什麼? – 2013-03-16 23:04:44