similarity

    4熱度

    2回答

    如何爲 標籤集描述的項目實現「類似項目」系統? 在我的數據庫中,我有三個表,Article,ArticleTag和Tag。每個 文章通過多對多的關係與多個標籤相關。對於每篇文章,我想找到五個最相似的 文章來實施「如果你喜歡這篇文章,你也會喜歡這些 太」系統。 我熟悉Cosine similarity 並且使用該算法效果很好。但這是一種緩慢的方式。對於 每篇文章,我需要對所有文章進行迭代,計算文章對

    4熱度

    3回答

    我正在使用TF/IDF來計算相似度。例如,如果我有以下兩個文檔。 Doc A => cat dog Doc B => dog sparrow 這是正常的它的相似性是50%,但是當我計算它的TF/IDF。它是作爲按照 TF值文件甲 dog tf = 0.5 cat tf = 0.5 TF爲文件B值 dog tf = 0.5 sparrow tf = 0.5 進行DOC IDF值甲

    2熱度

    5回答

    我有一堆類Puzzle的對象。我已覆蓋equals()和hashCode()。當需要向用戶展示解決方案時,我想篩選出所有「相似」的謎題(按我定義的標準),因此用戶只能看到其中的一個。 相似性是可傳遞的。 實施例: Result of computations: A (similar to A) B (similar to C) C D 在這種情況下,僅A或d和B或C將被呈現給用戶的 -

    5熱度

    3回答

    我計算了兩個文檔的tf/idf值。下面是TF/IDF值: 1.txt 0.0 0.5 2.txt 0.0 0.5 的文件是這樣的: 1.txt = > dog cat 2.txt = > cat elephant 如何使用這些值來計算餘弦相似? 我知道我應該計算點積,然後找到距離併除以它的點積。我如何使用我的值來計算此值? 還有一個問題:重要的是兩個文件應該有相同數量的單詞嗎?

    1熱度

    5回答

    您是否知道Java中的PHP similar_text函數的任何嚴格等效實現?

    13熱度

    5回答

    我有兩個字幕文件。 我需要告訴他們是否代表相同的文字,或相似文本 有時也有像「風在吹......正在播放的音樂」只在一個文件中註釋的功能。 但是,80%的內容將是相同的。該函數必須返回TRUE(文件表示相同的文本)。 有時還有像1這樣的拼寫錯誤,而不是l(one-L),如下所示: 她1eft的行李。 當然,這意味着函數必須返回TRUE。 我的評論: 函數應該返回文本的相似度的百分比 - 同意 「所

    3熱度

    4回答

    我正在寫一段java軟件,它必須對以UTF-8編碼的兩個文檔的相似度做出最終判斷。 這兩個文件很可能是相同的,或者彼此略有不同,因爲它們具有許多共同的特徵,如日期,位置,創建者等等,但是他們的文本是決定它們是否真的如此。 我期望這兩個文件的文本要麼非常相似,要麼根本不相關,所以我可以對設置相似性的閾值相當嚴格。例如,我可以說,只有當他們有90%的詞彙是共同的時候,這兩個文檔纔是相似的,但我希望有更

    4熱度

    5回答

    假設有4組集合: s1 = {1,2,3,4}; s2 = {2,3,4}; s3 = {2,3,4,5}; s4 = {1,3,4,5}; 是否有任何標準度量來呈現這組4組的相似度? 謝謝Jaccard方法的建議。但是,它似乎配對。 如何計算整組集合的相似度?

    2熱度

    3回答

    我有一組2D座標集(在每組中有100K-500K點的比例),我正在尋找測量1組相似度的最有效方法到另一個。我知道常用的東西:餘弦,Jaccard/Tanimoto等。但是我希望對任何快速/有效的測量相似性的建議,尤其是那些可以通過相似性進行聚類的測量。 編輯1:圖像顯示我需要做什麼。我需要它們的形狀/ orientatoin到羣集中的所有紅色,藍色和綠色等 alt text http://img4

    6熱度

    4回答

    我有一個字符串數組,不是很多(可能是幾百),但通常很長(幾百個字符)。 這些字符串通常是無意義的,而且與其他字符串不同......但是在一組字符串中,可能有300箇中有5個字符,它們之間有很大的相似性。實際上它們是相同的字符串,不同之處在於格式化,標點符號和幾個字。 我該如何計算出該組字符串?順便說一句,我用紅寶石編寫,但如果沒有別的算法在僞代碼將罰款。 謝謝