我正在嘗試使用tf-idf來羣集類似的文件。我的系統的一個主要缺點是它使用餘弦相似性來決定哪些矢量應該組合在一起。餘弦相似性替代tf-idf(三角不等式)
問題是餘弦相似性不滿足三角不等式。因爲在我的情況下,我不能在多個集羣中擁有相同的矢量,我必須將每個集羣與一個共同的元素進行合併,這可能會導致兩個文檔被分組在一起,即使它們彼此不相似。
是否有措施的另一種方式兩個文件的相似性,因此:
- 的載體,基於自己的方向進球非常相似,無論其規模的
- 手託三角不等式:如果是類似到B並且B類似於C,那麼A也類似於C