尋找類似/相關的文本算法

我在stackoverflow和Google搜索了很多，但是我沒有找到最好的答案。實際上，我打算開發一個新聞閱讀器系統，用於抓取並從網絡收集新聞，然後，我想在網站中找到類似或相關的新聞（爲了防止在網站上顯示重複的新聞）尋找類似/相關的文本算法

我認爲最好的例子是Google新聞，它收集來自網絡的新聞，然後分類並找到相關的新聞和文章。這是我想要做的。

這樣做的最佳算法是什麼？

來源

2012-09-21 Afshin Mehrabani

在我看來，你可以使用貝葉斯網絡，但一個好的網絡並非如此微不足道的實施。 –

我們可以聊聊天：http://chat.stackexchange.com/rooms/21749/nlp-for-news –

一個相對簡單的解決方案是爲每個文檔計算一個tf-idf矢量（en.wikipedia.org/wiki/Tf*idf），然後使用餘弦距離（en.wikipedia.org/wiki/Cosine_similarity）這些向量作爲文章之間語義距離的估計。

這可能會捕獲比Levenstein距離更好的語義關係，並且計算速度更快。

來源

2012-09-21 17:48:06 user1149913

我們可以聊天嗎：http://chat.stackexchange.com/rooms/21749/nlp-for-news –

這是一個：http://en.wikipedia.org/wiki/Levenshtein_distance

public static SqlInt32 ComputeLevenstheinDistance(SqlString firstString, SqlString secondString) 
{ 
    int n = firstString.Value.Length; 
    int m = secondString.Value.Length; 
    int[,] d = new int[n + 1,m + 1]; 

    // Step 1 
    if (n == 0) 
    { 
     return m; 
    } 

    if (m == 0) 
    { 
     return n; 
    } 

    // Step 2 
    for (int i = 0; i <= n; d[i, 0] = i++) 
    { 
    } 

    for (int j = 0; j <= m; d[0, j] = j++) 
    { 
    } 

    // Step 3 
    for (int i = 1; i <= n; i++) 
    { 
     //Step 4 
     for (int j = 1; j <= m; j++) 
     { 
      // Step 5 
      int cost = (secondString.Value[j - 1] == firstString.Value[i - 1]) ? 0 : 1; 

      // Step 6 
      d[i, j] = Math.Min(Math.Min(d[i - 1, j] + 1, d[i, j - 1] + 1), d[i - 1, j - 1] + cost); 
     } 
    } 
    // Step 7 
    return d[n, m]; 
}

這是非常方便的在手頭的任務：http://code.google.com/p/boilerpipe/

另外，如果你需要減少的話來分析的數量，試試這個：http://ots.codeplex.com/

我發現OTS在情感分析中非常有用，藉此我可以將句子數量減少爲一小部分常見短語和/或單詞，並根據此計算總體情緒。相同也應該起作用。

來源

2012-09-21 16:20:36

如果可以收集新聞比比皆是「沙」，關於「傷心」的人和「瘋狂「的奶牛。對於「自動填充」或拼寫檢查建議，這可能是好的，但不能提取單詞的含義！ –

尋找類似/相關的文本算法

回答

相關問題