阻止谷歌爬取每個頁面上的特定鏈接

當我第一次使用LESS CSS開始開發我的網站時，我做出了一個愚蠢的錯誤判斷。使用LESS，如果您在網址末尾加入了＃！watch，您可以看到實時更新。所以，作爲一個適當的懶惰開發者，我在我的開發頁面上做了一個按鈕，只有當我知道這個時，纔會將當前URL添加到＃！watch中。阻止谷歌爬取每個頁面上的特定鏈接

但是，谷歌正在將href當作一個合法的鏈接，現在我所有的頁面都被索引了兩次 - 一次是「普通」頁面，一次是追加到URL的＃！手錶。

我的問題是如何從Google索引中刪除！#watch？ robots.txt行會工作嗎？這並不是真正的問題，但我也在內部使用Google自定義搜索，所以當用戶在我的網站中搜索時，我爲相同的內容提供了太多的結果。

來源

2012-10-08 Smittles

哈哈，這很有趣....但如果你想嘗試：http://antezeta.com/news/avoid-search-engine-indexing – ohmusama

什麼我將做的是建立與各設置爲過期那些違規鏈接的sitemap.xml的文檔。我寫了一個簡短的python腳本來迭代每行（大約18,000個鏈接）並吐出格式化的xml。它看起來像：

<?xml version="1.0" encoding="UTF-8"?> 
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> 
    <url> 
     <loc>http://oq.totaleclips.com/mpa/The_Rise_of_the_Guardians_The_Video_Game_(Game)#!watch</loc>  
     <expires>2012-10-08</expires> 
    </url> 
    ....... (many more url entries) 
</urlset>

注意<expires>標籤，這是由谷歌閱讀，如果沒有其他的搜索引擎，作爲索引的截止日期。他們仍然會顯示30-60天，顯然，然後將停止作爲搜索結果返回。

來源

2012-10-11 17:23:12 Smittles

聲音很好，我希望它能解決問題！ – TheZ

您可以使用規範鏈接元標記。它告訴搜索引擎什麼是真正的頁面路徑，因此儘管有任何散列標籤或查詢字符串被附加到路徑上，它應該只觸發一次索引。

http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html

的樣子：

<link rel="canonical" href="http://www.example.com/realPagePath/" />

來源

2012-10-08 16:58:22 TheZ

我已經得到了rel =「canonical」在每一頁上。在30-45天后，「不好的」鏈接仍然存在 – Smittles

阻止谷歌爬取每個頁面上的特定鏈接

回答

相關問題