找到文檔的新穎性

我有在不同時間創建的文檔的集合。我需要知道每個新來的文檔，它與已經添加的文檔集有多相似。新文件可以添加新條款，因此在這些文件中，我預計「新穎性」會很高。我需要得到這個新奇的感覺（或者，距離）找到文檔的新穎性

例如，假設有D0，D1，D2，D3已經和我有一個新的文檔D4

我想感d4與d0，d1，d2和d3有多不同。

我已經想到了一些方法，但也有一些限制：

一）各（D0，D4），（D1，D4），（D2，D4），（D3之間COMPUT餘弦相似，d4）

找到平均餘弦相似度。

發現的負的新文件，D4和每個先前看到的文件即D0，D1，D2之間的餘弦角的分鐘，D4

的想法是，最小將瞭解d4的新穎性。

二）結合D0，D1，D2，D3和比較它D4 然後找到餘弦相似

難道這些方法似乎還好嗎？此外，是否有更合適的方式來獲得新穎感，也許有K-均值聚類？

來源

2016-03-07 newdev14

嘗試結合d0，d1，d2，d3並將它們用作OneClassSVM中的常規類。 – Amir

計算您收藏中的單詞的Multionomial Distribution的估算值，以及單獨分配新文檔中的單詞。計算KL-divergence以感受這些分佈有多遠。

來源

2016-03-08 10:50:59 user3639557

這些文件比較短，請問KL分歧適合這個嗎？ – newdev14

是的，只要你有足夠的短文本。 – user3639557

如果d0，d1，d2和d3不相似怎麼辦？ d4與d0非常相似，與d3完全不同，因爲d0和d3是非常不同的。

將d0-N結合起來可能不是一個好主意，因爲越大N越大的概率d（n + 1）將是d（0-N）的子集。

事實上，文檔級別的新穎性檢測很少用，因爲幾乎每個文檔都會有新的東西。爲了解決這個問題，您可以使用hPAM來測量主題新穎性，而不是測量文檔新穎性，以檢索主題和餘弦相似度來檢測差異。您還可以使用NOVELTY DETECTION VIA TOPIC MODELING IN RESEARCH ARTICLES by Sendhilkumar中提出的新穎性分數，該分數被證明更好。

來源

2016-03-08 12:28:01

這將工作的短文件，這是我工作的設置。此外，這些文件是不完全不同的。 – newdev14

它應該沒關係。關於主題建模，因爲hPAM只在Mallet中實現，除非使用Java，否則這種方法很尷尬，您可以嘗試使用LDA來觀察初始指標。 –

找到文檔的新穎性

回答

相關問題