當被拒絕的頁面（機器人）仍在sitemap.xml中時會發生什麼？

我想阻止頁面被索引，連同它的資產（圖片）。當被拒絕的頁面（機器人）仍在sitemap.xml中時會發生什麼？

因此，如果我告訴抓取工具跳過該頁面，但該頁面仍然在sitemap.xml中註冊，那麼該頁面上的任何信息都會被索引？

來源

2017-06-29 Valentin

取決於。關於您如何實際「告訴抓取工具跳過該頁面」，您是否指定了如何將這些外部資產分別編入索引，特定抓取工具是否希望遵守您的指示等。pp。 – CBroe

此問題似乎無法解決，因爲它不在討論範圍內，如幫助中心所述。 – Will

robots.txt不允許crawling, not indexing。

如果您不允許抓取robots.txt中的某個網址，並且將該網址列入了您的站點地圖，則仍然不允許它被抓取。在網站地圖中發生並不會改變這一點。

儘管（無論是否在站點地圖中），該URL仍可能被編入索引。

來源

2017-06-29 13:28:17 unor

您需要獲取頁面才能對其進行索引。如果它被機器人指令所禁止，那麼它將不會被編入索引。並非所有的抓取工具都遵循robots.txt，儘管 –

@JulienNioche：沒有，您可以在不抓取頁面的情況下索引一個URL（不是頁面）。許多搜索引擎（包括谷歌搜索）都這樣做。然後，您通常會看到類似「該網站的robots.txt不允許我們抓取此網頁的通知」，因此我們無法向您顯示說明。他們甚至可能會顯示一個標題，取自鏈接到它的超鏈接錨點。 – unor

你是對的，我沒有考慮過這方面。謝謝！ –

只需添加到上一個答案，您可以在robots.txt文件中使用Noindex指令。它不是標準AFAIK的一部分，但通常使用，見blog - 雖然似乎有分歧意見。或者，您可以在您的網頁中使用the robots meta tags。

像往常一樣，並不能保證所有的抓取工具都會遵守機器人的指令，但是主要的指令會。

來源

2017-06-30 07:55:03

當被拒絕的頁面（機器人）仍在sitemap.xml中時會發生什麼？

回答

相關問題