similarity

    0熱度

    3回答

    我想知道基於來自一組文檔的相似性對句子進行排名的最佳方法。 例如可以說, 1.有5個文件。 2.每個文件包含很多句子。 3.讓我們將文檔1作爲主要文檔,即輸出將包含此文檔中的句子。 4.輸出應該是排在以這樣的方式與第一排,這句話是在所有5個文件最相似的句子,然後接着第二第三句列表...提前 感謝。

    -2熱度

    2回答

    我必須比較兩個文件並找出相似度。 我只需要比較兩個文件並給出一個數字就可以了。該數字應描繪的相似程度(類似文件將有一個更大的數字) 我想要一個有效的手段來執行此過程。 (相似度不只是對相似字的基本測量,但上下文必須加以考慮了。) 任何人都可以提出一個有效的算法,這個過程

    1熱度

    1回答

    爲了找到兩個文檔之間的相似度,我計劃採用mahout來執行此任務。 的方法將包括: 該文檔轉換爲TF-IDF 移除停止詞(使搜索有效) 運行餘弦相似度 給相似 程度 我打算在mahout中實現這一點。我是一個初學者mahout,有人可以幫我幾個教程來執行此操作,並告訴我,如果這是一個有效的方法來計算文檔之間的相似度

    0熱度

    3回答

    我是文本挖掘領域的開拓者。 我需要在文檔相似性上進行工作。我的目標是比較兩個文檔,然後根據數字提供它們之間的相似度。我已經閱讀了很多這方面的理論。我打算從餘弦相似度開始 你們能幫助我解決這些基礎問題: 1.什麼平臺? (windows/linux) 2.什麼工具(人們談論weka/mahout/hadoop) - 我不知道該用什麼 3.什麼語言? 有些問題可能聽起來很荒謬,但我必須從零開始,我需要

    4熱度

    1回答

    我對如何完成此任務沒有想法。我正在計算單詞的頻率,實際上是單詞的基本形式(例如,跑步將被計爲跑步)。我查閱了一些Levenshtein距離的實現(我遇到的一個實現是from dotnerperls)。 我也嘗試了雙倍的Metaphone,但它不是我想要的。 所以,請給我如何在分類語言類似的話,因爲算法調整Levenshtein距離算法的一些想法只是確定需要不考慮,如果他們是語言類似的編輯次數或不

    2熱度

    1回答

    這還不是編程問題! 但我正在研究如何比較網頁以查看頁面是否相同/相似。這是一個個人項目,而不是工作/學校...(只是說!) 我找到了一些基本的simhash實現,並想知道是否有人可以指向我一個非常好的強大的py/php simhash實現。我寧可不要在這方面重新發明輪子。另外,我對潛在能夠爲給定頁面計算/生成DOM結構感興趣,然後計算樹/結構的「結束/邊緣」節點以確定這可能是一種方法確定頁面的相似

    1熱度

    1回答

    是否有一個內置算法來查找lucene中兩個文檔之間的相似度? 當我通過默認的相似性類時,它比較查詢和文檔後給出得分作爲結果。 我已經索引了我的文檔a,使用了雪球分析器,下一步就是找到兩個文檔之間的相似度。 有人可以提出解決方案嗎?

    7熱度

    1回答

    我正在尋找一種算法能夠生成短(FX 16個字符(不重要)哈希碼/從一個更長的字符串消化。 的主要要求是該串是幾乎相同的應導致相同摘要 Fx的2幾乎相同的郵件:。 嗨馬丁這裏有一些...垃圾郵件對您的問候XYZ => AAAA AAAA AAAA AAAA 。 Hi Bo,這裏有一些...垃圾郵件給你。問候EFG。 => AAAA AAAA AAAA AAAA 返回相同diges(或幾乎相同),其中

    1熱度

    2回答

    比方說,我有一個100名MLB投手名單和5個統計數字。例如,3.5和3.1的ERA之間的區別可能看起來不像天真的相似性算法,但在棒球中很多。鑑於我所看到的很多球員統計數據都有這樣的小差異,像這樣的很多小差異,計算兩名球員之間相似度的最佳方法是什麼? 數據的一個例子可能是這樣的: Player | ERA | Wins | Strikeouts --------------------------

    5熱度

    1回答

    是否有一個比較網頁(HTML,dom相似度)相似度的庫(用於java)? 在我的應用程序中,我想分類鏈接的網站。 例如: group 1: Product detail page group 2: Category page(適用於網上購物網站等)。 對於這樣的分類,html結構(dom)相似性是我認爲的最佳方式。請幫助這一點。