2015-11-01 28 views
1

這幾天robots.txt成爲網站SEO的重要工具。通過這個文件,Web開發人員說爬蟲機器人檢查並不檢查特定路徑。但另一方面,網站內部有許多祕密和重要的目錄和文件,它們的路徑在任何地方都不能提及任何人以降低安全風險。說起它們就像給小偷一張地圖找到所有的門。
問題是,robots.txt格式簡單,每個人都可以輕鬆讀取,因爲它幾乎都以完全讀取權限存儲在根目錄中。所以,如果我有這樣如何解決robots.txt漏洞告訴黑客重要和祕密路徑?

User-Agent: * 
Disallow: 
Disallow: /admin/ 

我說的大家(特別是黑客)的文件:「我有一個名爲管理,它必須不被抓取」。而我不喜歡別人知道我的網站上有這樣的目錄。

我們該如何解決這個問題?

+2

我想你應該問自己,爲什麼對這樣一個目錄的*存在*的知識是一個安全風險。是目錄的知識嗎?還是知道該目錄存在會允許某人進入該目錄?你爲什麼不使用HTTP授權功能來限制可以進入那裏的用戶?然後,一個爬蟲或其他邪惡的用戶將無法進入,如果他們知道或不知道它並不重要。 –

+0

你可以做些[像這樣](http://stackoverflow.com/a/25011819/413180),儘管這隻能在HTML內容上實現。 unor的解決方案更好,儘管應該對其進行徹底測試,以確保常用搜索引擎遵守預期的部分匹配。確保您使用強密碼,密碼鎖定和理想的2FA來充分保護您的管理頁面。另請參閱OWASP Top 10. – SilverlightFox

回答

1

您只能指定URL路徑的開始。

/admin/情況下,例如,您可以指定:

Disallow: /adm 

你只需要查找的字符串,只有塊要阻止的URL,而不是其他人(如/administer-better)。

根據您的URL結構,這可能是有意義的一個路徑段添加到所有的「祕密」的網址,並且僅涉及這部分在robots.txt,而不是以下部分:

Disallow: /private/ 
# nothing to see when visiting /private/ 
# the secret URLs are: 
# /private/admin/ 
# /private/login/ 
+0

謝謝@unor。我愛你的第二個解決方案(私人)... –

0

您可以在不想抓取的頁面中使用X-Robots-Tag。

但我真的更喜歡IP白名單時可用。