2012-03-22 70 views
2

我有一個自定義404頁面,有兩個主要目標:妥善處理了404找不到文件要求

  1. 日誌404錯誤,所以我可以修復損壞的鏈接,找到邪惡的人尋找漏洞
  2. 重定向到適當的位置與301移動永久頁面實際已移動

其他一切只是重定向到主頁面。我遇到的問題是機器人。谷歌是最糟糕的,他們每隔幾天就不斷嘗試抓取不存在的頁面。我甚至試圖將頁面添加爲禁止到我的robots.txt,但他們由於某種原因而忽略它。這些網頁仍然在搜索結果中出現!

我想解決這個問題,所以我正在尋找建議。請注意,這是付費虛擬主機,因此更改網絡服務器設置可能不是一種選擇。該Web服務器運行的是Windows使用IIS 7

我有一些問題:

如果我發現的Googlebot(和其他幾個主要的機器人)和手動發送404個狀態碼,並試圖將網絡服務器陷阱重新執行自定義404頁面,然後進入無限循環。

如果我有頁打印一條消息,它與200

+0

你聽起來像你知道你在說什麼,但以防萬一,你知道robots.txt不會立即註冊?我的意思是Google仍然會顯示這些頁面,直到它更新其列表爲止:-) – 2012-03-22 12:46:58

+0

是的,我知道它需要一點時間,它只是令人討厭。我認爲問題的一大部分是刮板,它們在處理網址時做得不好,然後Google抓取它們並給我們留下錯誤的印象。 – steveo225 2012-03-22 13:41:17

回答

3

狀態碼響應你應該看看到https://www.google.com/webmasters/

的機器人正試圖索引的文件必須曾經存在或鏈接到上面的鏈接谷歌會告訴你它要求什麼頁面,其中有多少是404。

你的robots.txt必須是不正確的谷歌忽略它,因爲他們肯定遵循的規則,否則他們會遇到很多麻煩。

您可以確保Google實際上使用最新的robots.txt並使用鏈接,它會告訴您是否有任何問題。

要使用301重定向的標籤,你可以簡單地這樣做:

Header("HTTP/1.1 301 Moved Permanently"); 
Header("Location: http://website.com"); 

你只需要先插入的所有相關信息到你的數據庫。

+0

針對網站站長工具的+1。網站管理員imo的寶貴資產。 – ianbailey 2012-03-22 13:01:18

+0

是的,網站管理員工具很好,謝謝你的提示。問題是,不道德的廣告網站和刮板鏈接到我們,但大多數鏈接是死的,舊的,或從來沒有存在的網頁,所以谷歌當然會尋找它們。我已經按照你的建議去做了,使用301狀態並重定向到主頁,但他們仍然一直在不停地詢問相同的舊的,不存在的頁面。 – steveo225 2012-03-22 13:38:25