我希望我的登臺網站不被搜索引擎索引(谷歌爲首)。如何防止登臺在搜索引擎中編入索引
我聽說Wordpress擅長這樣做,但我想成爲技術不可知論者。
robots.txt是否足夠?我們希望保持匿名訪問權限,讓客戶無需登錄就可以看到它的網站。
我必須爲每個頁面添加nofollow嗎?
我希望我的登臺網站不被搜索引擎索引(谷歌爲首)。如何防止登臺在搜索引擎中編入索引
我聽說Wordpress擅長這樣做,但我想成爲技術不可知論者。
robots.txt是否足夠?我們希望保持匿名訪問權限,讓客戶無需登錄就可以看到它的網站。
我必須爲每個頁面添加nofollow嗎?
我通常是反對臨時服務器暴露在公共網絡,但如果這是你的工作流程的最佳解決方案,這裏有一些事情你可以考慮:
最小的方法
Disallow: /
最基本的方法是確保您不會在任何地方出現重複內容的情況下自我拍攝。通過註冊一個單獨的域名,它對於用戶來說是一個乾淨的部門,什麼是階段,什麼不是。當您需要移動環境時,它也更清潔一點,但這更具操作性。 CNAME也可以工作,但請記住使用Google和Bing網站管理員工具註冊每個CNAME。這樣你可以使用域刪除工具,如果你需要。
勸方法
通過添加robots.txt,它可以防止搜索引擎訪問和索引內容。但是,這並不意味着他們不會爲網址編制索引。如果搜索引擎知道給定的URL,它可能會將其添加到搜索結果索引。您有時會在搜索結果中看到這些信息。標題往往是沒有說明的URL。爲防止這種情況發生,需要告知搜索引擎不要顯示內容或URL。通過添加身份驗證infront並且不響應200 OK狀態代碼,這對發動機而言不是將這些URL添加到其索引的強烈信號。根據我的經驗,我從未見過在搜索引擎索引中列出的401響應代碼頁。
首選方法IP表背後
另外通過把後面的臨時站點IP過濾器確保只有您的客戶能夠訪問該網站。如果他們想要從其他計算機訪問它,這可能是一個問題,有時會導致維護頭痛,但如果您不想讓分段環境編入索引,這是最好的方法。謹慎的說法是,您需要確保所有其他請求(例如搜索引擎和非客戶端)都不會返回任何內容。他們應該收到超時響應,並且從不提供200 OK。通過提供其他信息,它可能被誤認爲是你不想要的隱形。
此外爲了更加安全,我還將每個頁面的元機器人或x-robots-header命令添加到NOINDEX,NOFOLLOW,以防IP配置失敗或驗證失敗......這種情況很少見,但當有人因其他原因觸摸配置時會發生這種情況。像robots.txt文件一樣,如果它們被推送到生產環境中,您可以使用這些頁面級別的機器人命令真正拍攝自己。所以,只要確保你的開發/臨時環境處於乾淨的分離配置。否則,推出一個NOINDEX,NOFOLLOW或Disallow: /
將是災難性的生產站點。
我將此代碼添加到我的網站(在PHP編碼):
if($_SERVER['HTTP_HOST'] == 'test.ate.io') {
header("X-Robots-Tag: noindex, nofollow", true);
}
這樣一來,即使意外上演我的配置文件被推到我的生產服務器不會有任何問題。
TLDR;在根網站目錄中創建一個robots.txt
文件。此文件應包含一行:
Disallow:/
這足以阻止谷歌和Bing機器人從索引你的網站,出現在搜索結果。
可以通過在阿帕奇CONF加入下面設置在全局或相同的參數可以在虛擬主機被用於禁用它僅用於特定的虛擬主機寬禁用該服務器。
頁眉設置X-Robots-Tag中 「加入noindex,nofollow的」
一旦做到這一點,你可以通過Apache的標頭中返回測試。
curl -I staging.mywebsite.com HTTP/1.1 302 Found Date: Sat, 26 Nov 2016 22:36:33 GMT Server: Apache/2.4.18 (Ubuntu) Location: /pages/ X-Robots-Tag: noindex, nofollow Content-Type: text/html; charset=UTF-8
「爲每個頁面添加meta或x-robots命令,其值爲NOINDEX,NOFOLLOW」似乎是「添加robots.txt => Disallow:/」的好處。對於我來說,其餘的答案對我來說太狹窄了:「我們想保持匿名訪問」。我會試着看看會發生什麼。感謝您的回答。 – toutpt
沒問題:)祝你好運! – eywu
如果這一切都相同的代碼庫,也不會修改robots.txt文件造成任何服務器被忽略,而不僅僅是分期? –