2012-10-08 47 views
0

當我第一次使用LESS CSS開始開發我的網站時,我做出了一個愚蠢的錯誤判斷。使用LESS,如果您在網址末尾加入了#!watch,您可以看到實時更新。所以,作爲一個適當的懶惰開發者,我在我的開發頁面上做了一個按鈕,只有當我知道這個時,纔會將當前URL添加到#!watch中。阻止谷歌爬取每個頁面上的特定鏈接

但是,谷歌正在將href當作一個合法的鏈接,現在我所有的頁面都被索引了兩次 - 一次是「普通」頁面,一次是追加到URL的#!手錶。

我的問題是如何從Google索引中刪除!#watch? robots.txt行會工作嗎?這並不是真正的問題,但我也在內部使用Google自定義搜索,所以當用戶在我的網站中搜索時,我爲相同的內容提供了太多的結果。

+0

哈哈,這很有趣....但如果你想嘗試:http://antezeta.com/news/avoid-search-engine-indexing – ohmusama

回答

1

什麼我將做的是建立與各設置爲過期那些違規鏈接的sitemap.xml的文檔。我寫了一個簡短的python腳本來迭代每行(大約18,000個鏈接)並吐出格式化的xml。它看起來像:

<?xml version="1.0" encoding="UTF-8"?> 
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> 
    <url> 
     <loc>http://oq.totaleclips.com/mpa/The_Rise_of_the_Guardians_The_Video_Game_(Game)#!watch</loc>  
     <expires>2012-10-08</expires> 
    </url> 
    ....... (many more url entries) 
</urlset> 

注意<expires>標籤,這是由谷歌閱讀,如果沒有其他的搜索引擎,作爲索引的截止日期。他們仍然會顯示30-60天,顯然,然後將停止作爲搜索結果返回。

+0

聲音很好,我希望它能解決問題! – TheZ

1

您可以使用規範鏈接元標記。它告訴搜索引擎什麼是真正的頁面路徑,因此儘管有任何散列標籤或查詢字符串被附加到路徑上,它應該只觸發一次索引。

http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html

的樣子:

<link rel="canonical" href="http://www.example.com/realPagePath/" /> 
+0

我已經得到了rel =「canonical」在每一頁上。在30-45天后,「不好的」鏈接仍然存在 – Smittles