2016-08-22 55 views

回答

0

的一種方式是,一個樸素貝葉斯文本分類的工作方式。通過將集合中的所有文檔「拼接」爲一個大的僞文檔,您可以評估特定文檔與該「集合」文檔的相似性。這是大多數垃圾郵件過濾器的工作原理;他們將文檔「廉價藥品」與垃圾文檔中看到的文本進行比較,看看它們是否比您傾向於閱讀的文檔更像他們。

這種「僞文件」的方法可能是計算這樣的相似性最有效的方式,因爲你只需要做的相似度計算每一次你的文檔預先計算的集合的表示之後。

如果你真的有一個文檔相似矩陣,並希望使用文檔對相似而不是創建一個僞文件,你幾乎進行分組。 (我這樣說是因爲如何結合文檔內相似性是聚類類型中不同鏈接方法的主題)。要做到這一點

一種方式是看平均相似度。對於文檔,您總結了該文檔與所有其他文檔之間的相似度分數,然後除以總數。這可以讓您瞭解該文檔與其他文檔在相似空間中的平均距離。由於大多數文檔遠離集羣中心的文檔,因此異常值的平均距離會更長。

沒有你的相似度,或者你正在試圖解決什麼問題的更多信息,我不知道我能給出更好的建議。