我們遇到了所有頁面鏈接被抓取並繼續抓取的情況。頁面鏈接包含「〜/ {someTerm}/{someOtherTerm}/__ p/##/##」。新404如何找不到索引頁面影響排名?
現在的問題是,現在Google和MSN漫遊器都在爬行成千上萬的頁面,這些頁面不需要被抓取並導致系統緊張。
因此,我們將分頁鏈接更改爲一個Javascript鏈接,並刪除了所有包含「__p」的URL,以便它們現在返回404 - Page Not Found。我們真的只想索引第1頁,也許以後有一兩頁(但現在不擔心)
有沒有辦法使用WebMasterTools for Google和MSNBot在URL中刪除所有包含「__p」的頁面,並且如果是這樣,怎麼樣?
感謝。
使用機器人文本文件來定義什麼是關閉的限制:http://www.robotstxt.org/ – TheZ 2012-08-15 20:13:45
在這種情況下,將「禁止:/ * __ P」中的robots.txt做的伎倆? – ElHaix 2012-08-15 20:20:48
我會使用'/ * __ p $'來明確它位於路徑的盡頭,但是,應該這樣做。注意:通配符適用於Microsoft和Google,但可能不是所有爬行者(尊重標準robots.txt的爬行者) – TheZ 2012-08-15 20:24:32