2016-03-07 65 views
1

我有在不同時間創建的文檔的集合。我需要知道每個新來的文檔,它與已經添加的文檔集有多相似。新文件可以添加新條款,因此在這些文件中,我預計「新穎性」會很高。我需要得到這個新奇的感覺(或者,距離)找到文檔的新穎性

例如,假設有D0,D1,D2,D3已經和我有一個新的文檔D4

我想感d4與d0,d1,d2和d3有多不同。

我已經想到了一些方法,但也有一些限制:

一)各(D0,D4),(D1,D4),(D2,D4),(D3之間COMPUT餘弦相似,d4)

  • 找到平均餘弦相似度。

OR

發現的負的新文件,D4和每個先前看到的文件即D0,D1,D2之間的餘弦角的分鐘,D4

的想法是,最小將瞭解d4的新穎性。

二)結合D0,D1,D2,D3和比較它D4 然後找到餘弦相似

難道這些方法似乎還好嗎?此外,是否有更合適的方式來獲得新穎感,也許有K-均值聚類?

+0

嘗試結合d0,d1,d2,d3並將它們用作OneClassSVM中的常規類。 – Amir

回答

1

如果d0,d1,d2和d3不相似怎麼辦? d4與d0非常相似,與d3完全不同,因爲d0和d3是非常不同的。

將d0-N結合起來可能不是一個好主意,因爲越大N越大的概率d(n + 1)將是d(0-N)的子集。

事實上,文檔級別的新穎性檢測很少用,因爲幾乎每個文檔都會有新的東西。爲了解決這個問題,您可以使用hPAM來測量主題新穎性,而不是測量文檔新穎性,以檢索主題和餘弦相似度來檢測差異。您還可以使用NOVELTY DETECTION VIA TOPIC MODELING IN RESEARCH ARTICLES by Sendhilkumar中提出的新穎性分數,該分數被證明更好。

+0

這將工作的短文件,這是我工作的設置。 此外,這些文件是不完全不同的。 – newdev14

+0

它應該沒關係。關於主題建模,因爲hPAM只在Mallet中實現,除非使用Java,否則這種方法很尷尬,您可以嘗試使用LDA來觀察初始指標。 –