2012-02-01 76 views
14

我想停止搜索引擎爬行我的整個網站。如何阻止搜索引擎抓取整個網站?

我有一個公司的成員使用的Web應用程序。它位於Web服務器上,以便公司的員工可以訪問它。沒有人(公衆)會需要它或找到它有用。

因此,我想添加另一層安全(理論上),通過完全刪除所有搜索引擎機器人/搜尋器對其的訪問來嘗試和防止未經授權的訪問。谷歌將我們的網站編入索引以使其成爲可搜索內容從業務角度來看是毫無意義的,並且爲黑客添加另一種方式來首先找到該網站來嘗試並破解它。

我知道在robots.txt你可以告訴搜索引擎不要抓取某些目錄。

是否有可能告訴機器人不要爬網整個網站,而不必列出所有目錄不要抓取?

這最好是用robots.txt完成,還是用.htaccess或其他方法做得更好?

+1

您的網站是通過黑帽黑客即使沒有搜索引擎索引你的網站訪問。黑帽黑客並沒有通過谷歌搜索找到你。他們有自己的網絡爬行網絡,忽略'robots.txt'。此外,通過讓員工難以通過谷歌搜索找到您的網站,您正在損害互聯網。當你這樣做時,Google不喜歡它,並且你沒有讓你的網站更安全。 Plus Google通過引入客戶來幫助您。就像TSA一樣,從你身上拿走你的1英寸刀片,他們不會讓事情變得更安全,而且他們正在討論每個人。 – 2013-03-22 15:41:34

回答

11

最好使用robots.txt文件來處理,只是尊重文件的機器人。

要阻止整個網站在您的網站的根目錄下添加這robots.txt

User-agent: * 
Disallow:/

限制訪問您的站點爲其他人一樣,.htaccess是更好的,但你需要定義訪問規則,例如通過IP地址。

下面是.htaccess規則從貴公司的IP限制大家除了你的人:

Order allow,deny 
# Enter your companies IP address here 
Allow from 255.1.1.1 
Deny from all 
+0

感謝你的信任,robots.txt信息真的很有幫助,我希望只允許公司ip範圍,但應用程序將被路上的代表使用,所以他們的ip可以隨時更改,否則我會當然這麼做。感謝:-) – 2012-02-01 20:44:53

+0

是否有辦法阻止惡意機器人,例如將它們識別爲機器人而不是用戶並阻止它們,因爲除了人類之外沒有任何理由應該訪問網站。 – 2012-02-01 20:49:43

+0

@IainSimpson你可以嘗試基於userAgent來拒絕'bot「,但它很容易被惡搞,它很有可能是壞的機器人不會將自己標識爲機器人開始... – 2012-02-01 21:07:59

7

使用robots.txt保持網站進行搜索引擎索引的有one minor and little-known problem:如果沒有人鏈接到你的網站從任何頁面(由Google索引)(無論如何,都必須發生),Google may still index the link並將其顯示爲其搜索結果的一部分,即使您不允許它們獲取鏈接指向的頁面。

如果這可能是你的問題,解決的辦法是使用robots.txt,而是以包括與您網站上的每一頁上的價值noindex,nofollow一個robots元標記。你甚至可以做到這一點在.htaccess文件中使用mod_headersX-Robots-Tag HTTP標頭:

Header set X-Robots-Tag noindex,nofollow 

該指令將頭X-Robots-Tag: noindex,nofollow添加到它適用於包括非HTML頁面,如圖像的每一頁。當然,你可能要包括相應的HTML meta標籤太多,以防萬一(這是一個較舊的標準,因此可能更廣泛的支持):

<meta name="robots" content="noindex,nofollow" /> 

請注意,如果你這樣做,Googlebot會仍然嘗試抓取它發現到您網站的任何鏈接,因爲它需要在看到頁眉/元標記之前抓取頁面。當然,有些人可能會認爲這是一個功能,而不是一個bug,因爲它可以讓你查看你的訪問日誌,看看Google是否找到了你的網站的任何鏈接。

無論如何,無論你做什麼,請記住,很難讓「祕密」網站保密很長時間。隨着時間的推移,你的一個用戶不小心將網站鏈接泄露到網站的可能性接近100%,並且如果有任何理由認爲某人有興趣找到該網站,你應該假設他們會這樣做。因此,請確保您的在您的網站上放置了適當的訪問控制,使軟件保持最新狀態並對其執行定期安全檢查。

+3

這類似於增加您的安全通過在門窗上放置一個標誌來表明:「竊賊,不要看這個房子」。竊賊說:「大聲笑」。 – 2013-03-22 15:50:29

+0

這不是關於'安全',而是關於明智的搜索結果。我寫了一個早期的Wiki,一旦Google發現它,所有的頁面歷史記錄,與以前版本的差異和「編輯」頁面都被編入索引,而不是友好的用戶登陸地點。從Google的歷史記錄中刪除「修改」和「歷史記錄」頁面並不會使它們更安全,但它有助於將垃圾從Google中排除出去,並幫助用戶到達正確的位置。 – Galax 2016-02-05 14:31:55

0

如果您擔心安全問題,並且鎖定IP地址不可行,您應該考慮要求您的用戶通過身份驗證來訪問您的站點。

這意味着任何未經過身份驗證的人(谷歌,機器人,人誰絆倒鏈接)都無法訪問您的網頁。

你可以將它燒成你的網站本身,或使用HTTP基本認證。

https://www.httpwatch.com/httpgallery/authentication/