similarity

1熱度

1回答

即時做一個應用程序與Lucene（我是一個noob與它）和IM面臨一些問題。我aplication採用了Lucene 2.4.0庫與自定義similaraty實現（廣口瓶進口）在我的應用程序的IM計算doqFreq和numDocs手動（IM將所有指標的值，然後我在計算全球價值爲了在每個查詢中使用它），我想在自定義相似性實現上使用這些值來計算新的IDF。問題是，我不知道如何使用（或發送）新的d

50熱度

6回答

比較字符串與公差

我正在尋找一種方法來比較一個字符串與一個字符串數組。做一個精確的搜索當然很容易，但我希望我的程序能夠容忍拼寫錯誤，缺少字符串的部分等等。是否有某種框架可以執行此類搜索？我記住，搜索算法會返回幾個結果順序的匹配百分比或類似的東西。

3熱度

5回答

如何實施「相關文章？」

如何編寫能夠找到相關（類似）文章的用戶正在閱讀的文章？例如，假設我有篇：（我想出了這些頭銜現在） Python programming tips Python programming for newbies Programming in Python, ActionScript and Flash Programming in the Jungle Tarzan saves newbie

2熱度

1回答

有關字符串相似度量（Java）的建議。距離，聽起來像還是組合？

過程的一部分需要應用字符串相似性算法。該過程的結果將被存儲併產生讓我們說SS_Dataset。基於此數據集，必須作出進一步的決定。我的問題是：我應該申請一個或多個字符串相似性算法來產生SS_Dataset？任何計算「距離」和「聽起來像」相似度的算法之間的比較？算法的一個家族是否產生比另一個算法更準確的結果？組合是否可以提供更準確的相似性結果？你能推薦你曾經使用過的實現嗎？我的實現將

3熱度

3回答

協作過濾：非個性化的項目到項目的相似性

我正在嘗試計算亞馬遜的「查看/購買X的客戶也查看/購買了Y和Z」的項目到項目的相似度。我所見過的所有示例和參考資料都是針對排名項目的計算項目相似度，用於查找用戶 - 用戶相似度或根據當前用戶的歷史記錄查找推薦項目。在考慮當前用戶的偏好之前，我想先採用非目標方法。望着Amazon.com recommendations white paper，他們使用離線項目，項目相似以下邏輯： For each

4熱度

6回答

百分比相似度分析（Java）

我有以下情況： String a =「網絡爬蟲是一種自動瀏覽萬維網互聯網的計算機程序」; 字符串b =「網絡爬蟲計算機程序瀏覽萬維網」; 有什麼想法或標準算法來計算相似度的百分比是多少？例如，上述情況下，通過手動估計的相似性尋找應爲90％++。我的想法是來標記字符串和比較匹配的令牌的數量。類似於（7令牌/ 1令牌）* 100.但是，當然，這種方法根本無效。比較字符數匹配似乎也沒有效....

1熱度

1回答

是否有一些算法比較不同頁面的DOM相似度？

有沒有人有這方面的經驗？

1熱度

1回答

如何在一個版本中確定文件的文本塊來自以前版本中的哪個文件？

問題描述如下：假設我有一個版本的文件列表（比如說A，B，C，D）。在下一個版本中，我有以下文件（A，E，F，G）。他們的內容有一些相似之處。更新版本中的文件來自以前的版本，通過文件名重命名，內容添加，刪除或部分修改或不作任何更改（例如，A未更改）。我從一個文件（E，第二個版本）中取一塊文本並檢查哪些文件（在第一個版本中）包含這個文本塊。我發現B，C和D包含文本片段。我想確定這個文本塊實際來自哪

18熱度

6回答

查找兩個數組之間的餘弦相似度

我想知道在R中是否有內置函數可以找到兩個數組之間的餘弦相似度（或餘弦距離）？目前，我實現了自己的功能，但我不禁想到R應該已經有了一個。

1熱度

1回答

約餘弦相似

我發現文檔之間的餘弦相似..我做了這樣的 D1 =（8,0,0,1），其中8,0,0,1是的TF-IDF得分術語T1，T2，T3，T4 D2 =（7,0,0,1） COS（THETA）=（56 + 0 + 0 + 1）/ SQRT（64 + 49）SQRT （1 +1）其中出來是 COS（THETA）= 5 現在我該如何評估這個值......我不明白cos（θ）= 5是什麼意思，它們表明它們之間