2014-02-24 42 views
1

我已經激活了我的網站之一, cloudfare CDN服務,我創建了一個direct.mydomain.com 子域名網站上的工作時繞過cloudfare緩存。如何禁用指向主域相同根的子域的爬網程序?

我想避免這種情況的子域的抓取和索引,因爲它會在重複內容的結果。 通常我使用robots.txt文件來做到這一點,但這裏的問題是,由於這樣的事實,我的子域名指向主域名的robots.txt文件的相同目錄是他們兩個人是相同的。

我如何能做到這一點

這裏的任何想法是cloudfare支持主題我開了這個問題 https://support.cloudflare.com/hc/en-us/requests/85756

謝謝

回答

0

您可以使用mod_rewrite轉發所有請求robots.txt到一個不同的自定義文件是這樣的:

RewriteEngine on 
RewriteCond %{HTTP_HOST} ^direct\.mydomain\.com$ [NC] 
RewriteRule ^robots\.txt$ /robots-banned.txt [NC,L] 

然後在你的/robots-banned.txt文件中有這樣的代碼:

User-agent: * 
Disallow:/
+0

我想你的建議,但這種建立某種形式的衝突,因爲當我創建的cPanel子域direct.mydomain.com,重定向到機器人,direct.txt(這是我的機器人的文件的文件名爲該子站點,而不是自動創建的機器人,banned.txt如你所說), 所以當我嘗試使用親臨現場direct.mydomain.com我得到一個404錯誤,因爲瀏覽器嘗試我重定向到文件,該文件是/的public_html 這種直接的子域應該讓我正常瀏覽該網站,我只是想搜索引擎無法抓取和索引它 – Nic

+0

這是因爲很奇怪上述規則只會在robots.txt請求到達時才起作用,並且只能來自搜尋器,而不是來自常規瀏覽器。 'robots-banned.txt'就是一個例子,你也可以使用'robots-direct.txt'。 – anubhava

+0

好,也許這個問題是由於別的東西,因爲我只是試圖重新申請你的建議,現在的作品!非常感謝你的幫助:-) – Nic

相關問題