2015-03-02 49 views
0

我正在實施一個rss提要閱讀器,比如系統,而且我遇到了一些提要,這些提要在一段時間後更改了項目的網址。 當我建立系統時,我使用網址的md5作爲ID以便有一種簡單而快速的方式來檢測重複項目,人們不會將url更改爲文章,因爲它對SEO不利,但如果它們使用feedproxy或其他動態feed生成的URL在物品使用重定向和網址也發生變化,作爲一個例子,我得到這3項到我的數據庫的同一篇文章Rss提要將網址更改爲項目

http://feedproxy.google.com/~r/itsallaboutrevenue/~3/AElJBdzy2nY/your-story-is-not-about-you-content-pros-podcast-episode-2-with-ann-handley

http://feedproxy.google.com/~r/itsallaboutrevenue/~3/YIa4EeZgkJs/your-story-is-not-about-you-content-pros-podcast-episode-2-with-ann-handley

https://blogs.oracle.com/marketingcloud/your-story-is-not-about-you-content-pros-podcast-episode-2-with-ann-handley

我的問題是這樣做的正確方法是什麼,如果你知道一些可以在服務器端使用的穩定的開源代碼,那麼我可以替換我現在使用的php代碼(它可以以任何語言)(我正在使用picofeed)

回答

2

你不使用item的id作爲唯一標識符嗎?

// Item object 
$feed->items[0]->getId();      // Item unique id (hash) 

Picofeed大概從RSS item's guid創建的唯一ID的哈希值,或者如果GUID是缺少他們所使用的鏈接URL像你一樣。通常,Feed創建者會添加指導,即使鏈接更改後,這些指導也應該保持不變。 Here is some more info about how rss readers detect duplicates.

+0

此時鏈接已損壞 – simion314 2015-03-03 12:49:56

+0

固定網址,也可以通過在Google – janih 2015-03-03 14:11:19

+0

thnks上搜索'RSS Duplicate Detection'找到文章,我會看看是否找到一種方法來遷移數據庫數據以使用新ID沒有得到很多重複,我想保留不再在飼料上的舊文章,所以我不能刪除並重新開始 – simion314 2015-03-03 14:39:40