我的網站上有一些受限制的部分供蜘蛛抓取。蜘蛛是否只抓取站點地圖中的網址
引用僅包含我希望蜘蛛索引的url的sitemap.xml文件就足夠了嗎?
或者我應該添加以下元標記到頁面我想限制訪問?
<meta name="robots" content="NONE,NOARCHIVE" />
我的網站上有一些受限制的部分供蜘蛛抓取。蜘蛛是否只抓取站點地圖中的網址
引用僅包含我希望蜘蛛索引的url的sitemap.xml文件就足夠了嗎?
或者我應該添加以下元標記到頁面我想限制訪問?
<meta name="robots" content="NONE,NOARCHIVE" />
您應該「禁止」那些您不希望蜘蛛在robots.txt中抓取的頁面。蜘蛛甚至不會加載這些頁面,不必介意索引它們。閱讀在這裏:http://www.robotstxt.org/
如果你想有一個蜘蛛讀取網頁,但沒有對其進行索引,然後添加「noindex」標記,像這樣:
<meta name="robots" content="noindex">
爬行肯定會抓取和索引的頁面不在sitemap.xml中
,如果我不想讓蜘蛛讀取或索引我的網站的一部分? – DjangoPy 2014-10-29 20:07:28
機器人文件可以阻止爬蟲通過文件夾讀取您網站的某個部分。像「禁止/私人」,它不會讀取任何啓動/私人的URL的文件。一旦你這樣做了,哪些標籤在頁面上並不重要 - 因爲爬蟲不能再看到標籤。 – 2014-10-29 20:42:38
當你想要爬蟲不通過索引頁來閱讀時,像「noindex」這樣的標籤就在那裏。 – 2014-10-29 20:43:16
頁面不一定要在XML站點地圖中列出才能被抓取。蜘蛛會抓取任何他們能找到的東西。如果您想阻止抓取網頁,則需要使用robots.txt文件阻止該網頁。
您不希望網頁被列在搜索引擎的搜索結果中,您需要使用x-robots-tag
明確阻止它們這樣做。只阻止網頁被抓取是不夠的,因爲Google may still list a page it can't crawl if it deems that page is important and should be in its search results。
您可以使用元標籤:
<meta name="googlebot" content="noindex">
或者HTTP頭:
X-Robots-Tag: noindex
這個問題似乎是題外話,因爲它是關於SEO – 2014-10-29 19:59:57