similarity

    1熱度

    2回答

    問題是: 我有一個文本文件的集合,我想拿起最相似的一個輸入文件。 輸入文本文檔可以完全匹配或部分修改。 算法必須非常快。 目前,我發現simhash從收集文件中獲取指紋。有沒有其他算法可以做同樣的事情?

    0熱度

    1回答

    這個問題涉及到Francois Deschenes's answer到我以前的問題之一。 我不確定如何將我的文本相似性檢查功能應用於array_uintersect函數。 這裏是我的功能(公開賽上改進意見): function checkSimilar($str1, $str2){ similar_text($str1, $str2, $percent); if($percen

    5熱度

    2回答

    我在當時有兩個數據集(以矢量的形式),並將它們繪製在同一個軸上以查看它們如何相互關聯,並且特別注意並尋找兩個圖具有相似的形狀(即,在大致相同的時間間隔處兩者看似具有正/負梯度的位置)。例如: 到目前爲止,我一直在努力通過圖形化數據,但認識到,由於數據量是如此之大,每次策劃我想看看如何兩套相關圖形將採取太多很多時間。 是否有任何想法,腳本或函數可能有用於自動化此過程?

    0熱度

    1回答

    我正在嘗試在每行的多個單詞片段中執行一些模式「挖掘」。我使用Perl中的Text :: Ngrams模塊完成了N-gram分析,它給出了每個單詞的頻率。然而,我對本書的發現模式頗爲困惑。 tf-idf找到的頻率也是我設想的,但是這與我做的Ngram分析有何不同,以及相似性度量如何也有幫助。 請有任何Perl模塊或代碼片段我可以理解一些這些概念。 請我從物理學背景,但必須做一些模式識別,所以我對這些

    4熱度

    2回答

    我DF有以下條目: A xxx xxx xxx1 xx1x yyyy gggg 我想基於符號添加到基於A列的相似性我DF的B柱,以下條件。 我將閾值設置爲=或> 75% 類似。 A列已經排序。因此, 需要檢查上述 以上的ONE的相似性。 如果上一個類似,符號 會從上一個專欄B. 如果上一個不一樣,在 符號將來自同一行的A列中拷貝複製 例如,第1行和第2行是相同的。它們的符號與列A相

    3熱度

    3回答

    我正在研究跟蹤幫助臺條目的Web應用程序。我們希望找到一種方法來防止人們在常見問題上覆制和粘貼他們的筆記 - 我們希望原始幫助臺條目能夠針對每個問題調用寫出來。在任何情況下,我們有成千上萬的條目,其中一些是相似的,我試圖找到一種方法,將它們全部相互比較,並指出與其他條目非常相似的條目,即80%是直接複製等。 我已經查看了similar_text()和其他一些內置的PHP函數,但我有興趣聽聽其他人是

    1熱度

    1回答

    我正試圖用兩種語言來測量相似度。如果我有某種擴大的句子表達形式,我認爲這會有所幫助。 我們可以通過google/bing搜索得到這個擴展的表示,但是將整個句子作爲關鍵字並不會給出好的結果,尤其是如果句子很長。所以我認爲在一個句子中找到關鍵詞並將它們用作搜索詞可以改善我們的結果。 任何人都知道在一個句子中查找關鍵字的算法? 謝謝!

    0熱度

    2回答

    這個問題涉及信息檢索中的類似文檔的分組/聚類。 我有一組文檔,D1,D2,.. Dn。對於每個文件Di,我也有一組關鍵字Di_k1,Di_k2,...,Di_km。兩個文檔之間的相似性Di和Dj由涉及相關關鍵字的函數給出,即相似性(Di,Dj)= f(Di_K,Dj_K)。 現在,我希望將這些文檔中的每一個放置到一組組/集羣中,使得每個集羣都包含相似類型的文檔,以用於集羣中存在的元素之間的相似閾值

    2熱度

    2回答

    我需要計算使用Jaccard相似了正克Lucene的查詢和文檔的相似度。由於Jaccard相似性在IR中是一種非常常見的測量方法,我期望爲它找到一個Lucene實現,但我不能。 是任何人都知道這樣一個實現的?

    1熱度

    3回答

    我正在尋找一個很好的在線字符串檢查工具,可以讓我輸入兩個長字符串;它會告訴我哪裏出現任何差異。如果有一個輸入字符串的工具在每個字符下面顯示一個索引,並且正確處理了轉義字符,以便/ 0只佔用一個空格而不是兩個空間,它也會很好。 有誰知道這樣的工具?這將大大有助於字符串驗證。