在現有的.Net MVC3站點上,我們實施了分頁,其中URL類似於www.mysite.com/someterm/anotherterm/_p/89/10
,其中89是頁碼,10是每頁結果數。如何修復GoogleBot和其他搜索引擎抓取工具不應抓取的索引頁面?
不幸的是,rel="nofollow"
從大於3的頁面鏈接中丟失,並且那些頁面也丟失<meta name="robots" content="noindex,nofollow" />
。
問題是Google和其他一些搜索引擎現在已經對這些頁面建立了索引,並且現在試圖抓取所有這些頁面,這很常見,因爲我們發現它們對prod db服務器有很大的影響。我們不希望所有這些額外的成千上萬的網頁被抓取,只有前幾個。
我將代碼恢復爲不包含分頁的網站版本,以便我們的數據庫服務器不會受到如此嚴重的打擊。所以,雖然搜索引擎會爲所有這些頁面獲得404錯誤,但我想知道這是否是最好的做法,因爲過了一段時間我會再次介紹分頁網站?
我可以添加以下web.config中都404的重定向到主頁:
<httpErrors errorMode="Custom">
<remove statusCode="404"/>
<error statusCode="404" path="/" responseMode="ExecuteURL"/>
</httpErrors>
但我想,這樣做將呈現爲「重複的內容」爲所有的這些頁面帶有分頁URL參數。
這裏最好的辦法就是讓這些404的持續一兩週 - 然後重新引入分頁網站?
另一個選擇是釋放分頁網站,並添加一些代碼以拒絕大於3頁的爬網程序。建議?
是否有更快的方式將這些頁面從索引中取出,以便它們不被抓取?
謝謝。
如果添加像'你的R /根/ anotherterm/*' obots.txt排除它們,爬行者應該停止對它們的攻擊。 – 2012-08-04 01:00:13
網址結構爲www.mysite.com/*/*/_p/ [當前頁面]/[每頁項目]。你能做這樣的模式w/robots.txt嗎? – ElHaix 2012-08-04 05:14:16