蜘蛛是否只抓取站點地圖中的網址

引用僅包含我希望蜘蛛索引的url的sitemap.xml文件就足夠了嗎？

或者我應該添加以下元標記到頁面我想限制訪問？

<meta name="robots" content="NONE,NOARCHIVE" />

2014-10-29 DjangoPy

這個問題似乎是題外話，因爲它是關於SEO – 2014-10-29 19:59:57

您應該「禁止」那些您不希望蜘蛛在robots.txt中抓取的頁面。蜘蛛甚至不會加載這些頁面，不必介意索引它們。閱讀在這裏：http://www.robotstxt.org/

如果你想有一個蜘蛛讀取網頁，但沒有對其進行索引，然後添加「noindex」標記，像這樣：

<meta name="robots" content="noindex">

爬行肯定會抓取和索引的頁面不在sitemap.xml中

2014-10-29 20:02:19

，如果我不想讓蜘蛛讀取或索引我的網站的一部分？ – DjangoPy 2014-10-29 20:07:28

機器人文件可以阻止爬蟲通過文件夾讀取您網站的某個部分。像「禁止/私人」，它不會讀取任何啓動/私人的URL的文件。一旦你這樣做了，哪些標籤在頁面上並不重要 - 因爲爬蟲不能再看到標籤。 – 2014-10-29 20:42:38

當你想要爬蟲不通過索引頁來閱讀時，像「noindex」這樣的標籤就在那裏。 – 2014-10-29 20:43:16

頁面不一定要在XML站點地圖中列出才能被抓取。蜘蛛會抓取任何他們能找到的東西。如果您想阻止抓取網頁，則需要使用robots.txt文件阻止該網頁。

您不希望網頁被列在搜索引擎的搜索結果中，您需要使用x-robots-tag明確阻止它們這樣做。只阻止網頁被抓取是不夠的，因爲Google may still list a page it can't crawl if it deems that page is important and should be in its search results。

您可以使用元標籤：

<meta name="googlebot" content="noindex">

或者HTTP頭：

X-Robots-Tag: noindex

2014-10-29 20:02:42

回答