對於搜索機器人,我工作的一個設計:
*比較URI和
*確定的URI實際上是同一個頁面比較搜索機器人的URI?
與重定向和別名處理:
案例1:重定向
案例2:別名例如案例3:URL參數例如sukshma.net/node#parameter
我有兩種方法可以遵循,一種方法是明確檢查重定向以獲得案例#1。另一種方法是「硬編碼」別名,如www,在案例#2中工作。第二種方法(硬代碼)別名很脆弱。 HTTP的URL規範沒有提到使用www作爲別名(RFC 2616)
我也打算使用Canonical元標記(HTTP/HTML),但如果我理解正確 - 我不能依賴標籤在所有情況下都在那裏。
請分享您的經驗。你知道一個參考白皮書的實現檢測搜索機器人的重複嗎?
男人,這真是一個面試問題。 – 2009-12-11 04:03:47
真的,你爲什麼這麼想?這是我寫出這個問題的方式嗎? – Santosh 2009-12-13 03:56:14