我想阻止頁面被索引,連同它的資產(圖片)。當被拒絕的頁面(機器人)仍在sitemap.xml中時會發生什麼?
因此,如果我告訴抓取工具跳過該頁面,但該頁面仍然在sitemap.xml中註冊,那麼該頁面上的任何信息都會被索引?
我想阻止頁面被索引,連同它的資產(圖片)。當被拒絕的頁面(機器人)仍在sitemap.xml中時會發生什麼?
因此,如果我告訴抓取工具跳過該頁面,但該頁面仍然在sitemap.xml中註冊,那麼該頁面上的任何信息都會被索引?
robots.txt不允許crawling, not indexing。
如果您不允許抓取robots.txt中的某個網址,並且將該網址列入了您的站點地圖,則仍然不允許它被抓取。在網站地圖中發生並不會改變這一點。
儘管(無論是否在站點地圖中),該URL仍可能被編入索引。
您需要獲取頁面才能對其進行索引。如果它被機器人指令所禁止,那麼它將不會被編入索引。並非所有的抓取工具都遵循robots.txt,儘管 –
@JulienNioche:沒有,您可以在不抓取頁面的情況下索引一個URL(不是頁面)。許多搜索引擎(包括谷歌搜索)都這樣做。然後,您通常會看到類似「該網站的robots.txt不允許我們抓取此網頁的通知」,因此我們無法向您顯示說明。他們甚至可能會顯示一個標題,取自鏈接到它的超鏈接錨點。 – unor
你是對的,我沒有考慮過這方面。謝謝! –
只需添加到上一個答案,您可以在robots.txt文件中使用Noindex指令。它不是標準AFAIK的一部分,但通常使用,見blog - 雖然似乎有分歧意見。或者,您可以在您的網頁中使用the robots meta tags。
像往常一樣,並不能保證所有的抓取工具都會遵守機器人的指令,但是主要的指令會。
取決於。關於您如何實際「告訴抓取工具跳過該頁面」,您是否指定了如何將這些外部資產分別編入索引,特定抓取工具是否希望遵守您的指示等。pp。 – CBroe
此問題似乎無法解決,因爲它不在討論範圍內,如幫助中心所述。 – Will