2012-12-29 93 views
2

我有500多篇文章的數據庫,每5分鐘php腳本檢查新聞的XML文件。我需要忽略已有的文章。我需要檢查新聞的相似性,因爲有些人會重寫它。例如:文本比較

一會寫:「你好,我的名字是約翰,你好嗎?」
第二會寫:「你好!你好嗎?我叫約翰!」

這不是很好的例子,但我有這個問題。爲了比較文本,我將使用帶狀皰疹算法。但如何更好地做?我認爲每次從xml檢查每篇文章與數據庫都不好。

+0

當您以XML形式接收文章時,爲什麼文章中沒有ID? ('')。 – KingCrunch

+0

id是的,這是如果從一個源xml,但我會用很多來源 – Berny

回答

2

由於您只有500多篇文章,每5分鐘檢查一次應該不成問題。

如果你想改善這一點,你可以添加另一個表(md5或sha1散列,文本源),並存儲源代碼,你在哪裏獲取文本,加上一些散列。當你檢查新的文章時,你可以用哈希值來比較,看看你是否已經看過這篇文章。