2009-12-11 65 views
2

對於搜索機器人,我工作的一個設計:
*比較URI和
*確定的URI實際上是同一個頁面比較搜索機器人的URI?

與重定向和別名處理:
案例1:重定向
案例2:別名例如案例3:URL參數例如sukshma.net/node#parameter

我有兩種方法可以遵循,一種方法是明確檢查重定向以獲得案例#1。另一種方法是「硬編碼」別名,如www,在案例#2中工作。第二種方法(硬代碼)別名很脆弱。 HTTP的URL規範沒有提到使用www作爲別名(RFC 2616)

我也打算使用Canonical元標記(HTTP/HTML),但如果我理解正確 - 我不能依賴標籤在所有情況下都在那裏。

請分享您的經驗。你知道一個參考白皮書的實現檢測搜索機器人的重複嗎?

+0

男人,這真是一個面試問題。 – 2009-12-11 04:03:47

+0

真的,你爲什麼這麼想?這是我寫出這個問題的方式嗎? – Santosh 2009-12-13 03:56:14

回答

0

構建您自己的網絡爬蟲是一個lot of work。考慮檢查一些已經可用的開源蜘蛛,如JSpiderOpenWebSpidermany others

+0

但是,我得到了要去的地方 - 我需要用於重複檢測的技術和專有技術(而不僅僅是抓取)。你知道這些項目是否已經成功解決了嗎? – Santosh 2009-12-11 06:02:20

+0

儘管我有自己的建議,但我已經構建了自己的爬網程序併爲每個已爬網頁面存儲了校驗和。如果一個頁面可能與另一個頁面重複,則根據其URL或其他標準,然後比較校驗和以進行檢查。 – 2009-12-11 06:22:30