similarity

0熱度

3回答

我想知道基於來自一組文檔的相似性對句子進行排名的最佳方法。例如可以說， 1.有5個文件。 2.每個文件包含很多句子。 3.讓我們將文檔1作爲主要文檔，即輸出將包含此文檔中的句子。 4.輸出應該是排在以這樣的方式與第一排，這句話是在所有5個文件最相似的句子，然後接着第二第三句列表...提前感謝。

-2熱度

2回答

相似度

我必須比較兩個文件並找出相似度。我只需要比較兩個文件並給出一個數字就可以了。該數字應描繪的相似程度（類似文件將有一個更大的數字）我想要一個有效的手段來執行此過程。（相似度不只是對相似字的基本測量，但上下文必須加以考慮了。）任何人都可以提出一個有效的算法，這個過程

1熱度

1回答

計算mahout中的餘弦相似度

爲了找到兩個文檔之間的相似度，我計劃採用mahout來執行此任務。的方法將包括：該文檔轉換爲TF-IDF 移除停止詞（使搜索有效）運行餘弦相似度給相似程度我打算在mahout中實現這一點。我是一個初學者mahout，有人可以幫我幾個教程來執行此操作，並告訴我，如果這是一個有效的方法來計算文檔之間的相似度

0熱度

3回答

我應該使用什麼平臺/工具/軟件/語言進行文本挖掘？

我是文本挖掘領域的開拓者。我需要在文檔相似性上進行工作。我的目標是比較兩個文檔，然後根據數字提供它們之間的相似度。我已經閱讀了很多這方面的理論。我打算從餘弦相似度開始你們能幫助我解決這些基礎問題： 1.什麼平臺？（windows/linux） 2.什麼工具（人們談論weka/mahout/hadoop） - 我不知道該用什麼 3.什麼語言？有些問題可能聽起來很荒謬，但我必須從零開始，我需要

4熱度

1回答

如何調整Levenshtein距離以分類語言上相似的單詞（例如動詞時態，形容詞比較，單數和複數）

我對如何完成此任務沒有想法。我正在計算單詞的頻率，實際上是單詞的基本形式（例如，跑步將被計爲跑步）。我查閱了一些Levenshtein距離的實現（我遇到的一個實現是from dotnerperls）。我也嘗試了雙倍的Metaphone，但它不是我想要的。所以，請給我如何在分類語言類似的話，因爲算法調整Levenshtein距離算法的一些想法只是確定需要不考慮，如果他們是語言類似的編輯次數或不

2熱度

1回答

比較web頁面 - simhash和DOM邊緣節點處理

這還不是編程問題！但我正在研究如何比較網頁以查看頁面是否相同/相似。這是一個個人項目，而不是工作/學校...（只是說！）我找到了一些基本的simhash實現，並想知道是否有人可以指向我一個非常好的強大的py/php simhash實現。我寧可不要在這方面重新發明輪子。另外，我對潛在能夠爲給定頁面計算/生成DOM結構感興趣，然後計算樹/結構的「結束/邊緣」節點以確定這可能是一種方法確定頁面的相似

1熱度

1回答

查找兩個文檔之間的相似度

是否有一個內置算法來查找lucene中兩個文檔之間的相似度？當我通過默認的相似性類時，它比較查詢和文檔後給出得分作爲結果。我已經索引了我的文檔a，使用了雪球分析器，下一步就是找到兩個文檔之間的相似度。有人可以提出解決方案嗎？

7熱度

1回答

的Python消化/散列

我正在尋找一種算法能夠生成短（FX 16個字符（不重要）哈希碼/從一個更長的字符串消化。的主要要求是該串是幾乎相同的應導致相同摘要 Fx的2幾乎相同的郵件：。嗨馬丁這裏有一些...垃圾郵件對您的問候XYZ => AAAA AAAA AAAA AAAA 。 Hi Bo，這裏有一些...垃圾郵件給你。問候EFG。 => AAAA AAAA AAAA AAAA 返回相同diges（或幾乎相同），其中

1熱度

2回答

什麼是比較差異小的數據集之間相似性的好方法？

比方說，我有一個100名MLB投手名單和5個統計數字。例如，3.5和3.1的ERA之間的區別可能看起來不像天真的相似性算法，但在棒球中很多。鑑於我所看到的很多球員統計數據都有這樣的小差異，像這樣的很多小差異，計算兩名球員之間相似度的最佳方法是什麼？數據的一個例子可能是這樣的： Player | ERA | Wins | Strikeouts --------------------------

5熱度

1回答

Java。比較網頁結構（dom）相似性。

是否有一個比較網頁（HTML，dom相似度）相似度的庫（用於java）？在我的應用程序中，我想分類鏈接的網站。例如： group 1: Product detail page group 2: Category page（適用於網上購物網站等）。對於這樣的分類，html結構（dom）相似性是我認爲的最佳方式。請幫助這一點。