similarity

4熱度

2回答

如何爲標籤集描述的項目實現「類似項目」系統？在我的數據庫中，我有三個表，Article，ArticleTag和Tag。每個文章通過多對多的關係與多個標籤相關。對於每篇文章，我想找到五個最相似的文章來實施「如果你喜歡這篇文章，你也會喜歡這些太」系統。我熟悉Cosine similarity 並且使用該算法效果很好。但這是一種緩慢的方式。對於每篇文章，我需要對所有文章進行迭代，計算文章對

4熱度

3回答

tf idf相似度

我正在使用TF/IDF來計算相似度。例如，如果我有以下兩個文檔。 Doc A => cat dog Doc B => dog sparrow 這是正常的它的相似性是50％，但是當我計算它的TF/IDF。它是作爲按照 TF值文件甲 dog tf = 0.5 cat tf = 0.5 TF爲文件B值 dog tf = 0.5 sparrow tf = 0.5 進行DOC IDF值甲

2熱度

5回答

Java：Equalator？（刪除對象集合中的重複項）

我有一堆類Puzzle的對象。我已覆蓋equals()和hashCode()。當需要向用戶展示解決方案時，我想篩選出所有「相似」的謎題（按我定義的標準），因此用戶只能看到其中的一個。相似性是可傳遞的。實施例： Result of computations: A (similar to A) B (similar to C) C D 在這種情況下，僅A或d和B或C將被呈現給用戶的 -

5熱度

3回答

餘弦相似度

我計算了兩個文檔的tf/idf值。下面是TF/IDF值： 1.txt 0.0 0.5 2.txt 0.0 0.5 的文件是這樣的： 1.txt = > dog cat 2.txt = > cat elephant 如何使用這些值來計算餘弦相似？我知道我應該計算點積，然後找到距離併除以它的點積。我如何使用我的值來計算此值？還有一個問題：重要的是兩個文件應該有相同數量的單詞嗎？

1熱度

5回答

java中的similar_text（）

您是否知道Java中的PHP similar_text函數的任何嚴格等效實現？

13熱度

5回答

文字相似度算法

我有兩個字幕文件。我需要告訴他們是否代表相同的文字，或相似文本有時也有像「風在吹......正在播放的音樂」只在一個文件中註釋的功能。但是，80％的內容將是相同的。該函數必須返回TRUE（文件表示相同的文本）。有時還有像1這樣的拼寫錯誤，而不是l（one-L），如下所示：她1eft的行李。當然，這意味着函數必須返回TRUE。我的評論：函數應該返回文本的相似度的百分比 - 同意「所

3熱度

4回答

嚴格文件相似度的文本相似度函數

我正在寫一段java軟件，它必須對以UTF-8編碼的兩個文檔的相似度做出最終判斷。這兩個文件很可能是相同的，或者彼此略有不同，因爲它們具有許多共同的特徵，如日期，位置，創建者等等，但是他們的文本是決定它們是否真的如此。我期望這兩個文件的文本要麼非常相似，要麼根本不相關，所以我可以對設置相似性的閾值相當嚴格。例如，我可以說，只有當他們有90％的詞彙是共同的時候，這兩個文檔纔是相似的，但我希望有更

4熱度

5回答

計算一組集合之間的相似度

假設有4組集合： s1 = {1,2,3,4}; s2 = {2,3,4}; s3 = {2,3,4,5}; s4 = {1,3,4,5}; 是否有任何標準度量來呈現這組4組的相似度？謝謝Jaccard方法的建議。但是，它似乎配對。如何計算整組集合的相似度？

2熱度

3回答

適用於多組2D座標的適當相似性度量

我有一組2D座標集（在每組中有100K-500K點的比例），我正在尋找測量1組相似度的最有效方法到另一個。我知道常用的東西：餘弦，Jaccard/Tanimoto等。但是我希望對任何快速/有效的測量相似性的建議，尤其是那些可以通過相似性進行聚類的測量。編輯1：圖像顯示我需要做什麼。我需要它們的形狀/ orientatoin到羣集中的所有紅色，藍色和綠色等 alt text http://img4

6熱度

4回答

按相似性分組字符串

我有一個字符串數組，不是很多（可能是幾百），但通常很長（幾百個字符）。這些字符串通常是無意義的，而且與其他字符串不同......但是在一組字符串中，可能有300箇中有5個字符，它們之間有很大的相似性。實際上它們是相同的字符串，不同之處在於格式化，標點符號和幾個字。我該如何計算出該組字符串？順便說一句，我用紅寶石編寫，但如果沒有別的算法在僞代碼將罰款。謝謝