Q

文本比較

2012-12-29 93 views 2 likes

2

我有500多篇文章的數據庫，每5分鐘php腳本檢查新聞的XML文件。我需要忽略已有的文章。我需要檢查新聞的相似性，因爲有些人會重寫它。例如：文本比較

一會寫：「你好，我的名字是約翰，你好嗎？」
第二會寫：「你好！你好嗎？我叫約翰！」

這不是很好的例子，但我有這個問題。爲了比較文本，我將使用帶狀皰疹算法。但如何更好地做？我認爲每次從xml檢查每篇文章與數據庫都不好。

2012-12-29 Berny

+0

當您以XML形式接收文章時，爲什麼文章中沒有ID？（''）。 – KingCrunch

+0

id是的，這是如果從一個源xml，但我會用很多來源 – Berny

A

回答

2

由於您只有500多篇文章，每5分鐘檢查一次應該不成問題。

如果你想改善這一點，你可以添加另一個表（md5或sha1散列，文本源），並存儲源代碼，你在哪裏獲取文本，加上一些散列。當你檢查新的文章時，你可以用哈希值來比較，看看你是否已經看過這篇文章。

2012-12-29 13:14:05

相關問題