比較搜索機器人的URI？

對於搜索機器人，我工作的一個設計：
*比較URI和
*確定的URI實際上是同一個頁面比較搜索機器人的URI？

與重定向和別名處理：
案例1：重定向
案例2：別名例如案例3：URL參數例如sukshma.net/node#parameter

我有兩種方法可以遵循，一種方法是明確檢查重定向以獲得案例＃1。另一種方法是「硬編碼」別名，如www，在案例＃2中工作。第二種方法（硬代碼）別名很脆弱。 HTTP的URL規範沒有提到使用www作爲別名（RFC 2616）

我也打算使用Canonical元標記（HTTP/HTML），但如果我理解正確 - 我不能依賴標籤在所有情況下都在那裏。

請分享您的經驗。你知道一個參考白皮書的實現檢測搜索機器人的重複嗎？

2009-12-11 Santosh

男人，這真是一個面試問題。 – 2009-12-11 04:03:47

真的，你爲什麼這麼想？這是我寫出這個問題的方式嗎？ – Santosh 2009-12-13 03:56:14

構建您自己的網絡爬蟲是一個lot of work。考慮檢查一些已經可用的開源蜘蛛，如JSpider，OpenWebSpider或many others。

2009-12-11 03:54:45

但是，我得到了要去的地方 - 我需要用於重複檢測的技術和專有技術（而不僅僅是抓取）。你知道這些項目是否已經成功解決了嗎？ – Santosh 2009-12-11 06:02:20

儘管我有自己的建議，但我已經構建了自己的爬網程序併爲每個已爬網頁面存儲了校驗和。如果一個頁面可能與另一個頁面重複，則根據其URL或其他標準，然後比較校驗和以進行檢查。 – 2009-12-11 06:22:30

的第一種情況將通過簡單的檢查HTTP status code來解決。

對於第二和第三例 Wikipedia解釋非常好：URL Normalization/Canonicalization。

2010-01-15 01:08:23

回答