我有在不同時間創建的文檔的集合。我需要知道每個新來的文檔,它與已經添加的文檔集有多相似。新文件可以添加新條款,因此在這些文件中,我預計「新穎性」會很高。我需要得到這個新奇的感覺(或者,距離)找到文檔的新穎性
例如,假設有D0,D1,D2,D3已經和我有一個新的文檔D4
我想感d4與d0,d1,d2和d3有多不同。
我已經想到了一些方法,但也有一些限制:
一)各(D0,D4),(D1,D4),(D2,D4),(D3之間COMPUT餘弦相似,d4)
- 找到平均餘弦相似度。
OR
發現的負的新文件,D4和每個先前看到的文件即D0,D1,D2之間的餘弦角的分鐘,D4
的想法是,最小將瞭解d4的新穎性。
二)結合D0,D1,D2,D3和比較它D4 然後找到餘弦相似
難道這些方法似乎還好嗎?此外,是否有更合適的方式來獲得新穎感,也許有K-均值聚類?
嘗試結合d0,d1,d2,d3並將它們用作OneClassSVM中的常規類。 – Amir