2013-08-06 171 views
3

我有一個開發網站https://text-domain.com。 (不是真實網站) 當我轉到https://duckduckgo.com並搜索text-domain.com時,它確實會返回結果。阻止從搜索引擎網站 - DuckDuckGo

有什麼我試過到目前爲止:

創建robots.txt文件,下面的代碼(把在我的根目錄,即在text-domain.com/robots.txt):

User-agent: * 
Disallow:/

然後加入meta標記像這樣在我的模板文件:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 

即使這樣做之後,我搜索了DuckDuckGo,並取得了第同樣的結果。歡迎大家提出意見。

P.S

嗨,等待幾天後,有2種表現:

  • 儘管如此,搜索結果是牽強。
  • 但我看到的消息,此結果說:「我們想展現 你在這裏的描述,但該網站將不允許我們。」

    是否有可能完全從結果顯示阻止?

+0

你等了多久?這不會是瞬間的。 – JJJ

+0

@juhana哦,需要多長時間,我做了大約3個小時的返回 – Vimalnath

+1

您需要等到抓取工具回到網站。可能需要幾天時間。 – JJJ

回答

1

DuckDuckGo應該尊重您的robots.txt。他們的機器人DuckDuckBot記錄在https://duckduckgo.com/duckduckbot

但是請注意:DuckDuckGo機器人本身並未抓取所有內容(因爲DuckDuckGo從其他來源獲取結果),所以如果您不阻止其他來源的機器人(如Bing),您的網頁仍可能顯示。有關更多詳細信息,請參閱mlissner’s answer

robots.txt的,都需要考慮兩件事情:

  • ,這需要時間,直到你的robots.txt變化的認可。您必須等到相關的機器人再次訪問您的網站。
  • 即使您的網址被封鎖在robots.txt,搜索引擎仍然可以列出你的網址在搜索結果中(不包括像標題和描述抓取元數據)。

使用robots - meta元素與noindex會阻止甚至在像谷歌搜索引擎中列出的網址,但DDG doesn’t seem來支持它。

請注意,您使用的錯誤引號在你的榜樣。這應該是

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 

代替

<META NAME=」ROBOTS」 CONTENT=」NOINDEX, NOFOLLOW」> 
+0

感謝您的鏈接,但是我的引號在我的實際網站中看起來是正確的,所以我猜想我需要等待一段時間才能解決問題。 – Vimalnath

+0

嗨,等待幾天後有2個調查結果: - 然後,搜索結果被提取。 - 但是我看到一條消息,表示結果如下:「我們想在此向您顯示一個描述,但該網站不允許我們。」 ,是否有可能完全阻止在結果中顯示? – Vimalnath

+0

@vimal:然後DDG似乎不像Google那樣解釋'meta'-'robots'。 [有人說](http://michaeljaylissner.com/blog/support-for-x-robots-tag-http-header-and-robots-HTML-meta-tag)他們不支持'meta'- 「機器人」(至少在2012年)。 – unor

6

DuckDuckGo是一個奇怪的鴨子,當談到納入他們的研究結果。我所做的研究公平一點關於這個話題在多個搜索引擎,並已經取得了一些電子郵件來回DDG。

這是交易。他們從其他搜索引擎獲取內容,如listed here。據我所知,他們的搜索結果並不表明其搜索引擎是它的來源,所以要刪除你的內容,你需要基本上上游去他們所有的來源,讓你的內容從那裏取出。如果這聽起來有點繁瑣,不用擔心—你想這樣做,無論如何,對不對?

DDG確實有自己的爬行以及,人們形象地稱爲the DuckDuckBot。它榮譽NOINDEX HTML標籤,也不是HTTP標頭(它確實兌現的robots.txt),但是這似乎並不重要,因爲沒有新的結果由Duck​​DuckBot創建。據我所知,這是不記錄任何地方,但我有自己的工作人員,我引用下面談到:

DDG說(2014年6月6日):

我們得到了我們的研究結果從多個源而我們自己的抓取工具不會成爲你的[問題]的原因。我們的抓取工具只做非常具體的任務,如尋找(而不是實際爬行)的域名停放,垃圾網站等

如果有來自[您的網站]出現在DuckDuckGo的結果,不應該,他們很可能從我們的上游來源之一流出。如果在那裏移除,那麼他們將停止在我們的結果中顯示。

我回應:

OK,所以沒有通過您的爬蟲,這的確不支持NOINDEX HTML或HTTP標籤放在你的索引獲取?

他們證實:

沒錯!很抱歉,如果您發現任何不尋常的事情,請隨時通知我們。

那麼剩下的唯一問題就是如何從上游供應商中刪除您的內容。對於這一點,我點你my blog因爲它相差提供商。其關鍵是:

  1. 使用noindex HTML元標記和x機器人HTTP標記(用於圖像等)告訴搜索引擎不要在其結果中包含某些東西;
  2. 在您的sitemap.xml文件中列出您的整個網站,以便所有的搜索引擎都可以在那裏找到它。
  3. 使用robots.txt來阻止不支持noindex或x-robots標籤的搜索引擎。

而獎勵積分:

  1. 設置你的sitemaps.xml文件,以便他們NOINDEX成立(因而在搜索結果中不會出現)。
  2. 同樣爲你的robots.txt文件做。

這是一個複雜的世界。