2015-03-13 43 views
-1

我正在爲機器人配置robots.txt文件,並且無法真正瞭解我應該從它們阻止什麼目錄。 當然,我已經在互聯網上閱讀了一些信息,但是到目前爲止,我想知道的和我發現的信息之間存在一些差距。因此,這將是很好,如果你能幫助我,回答一些問題:有關機器人和內容阻塞的問題幾個

  • 我應該阻止機器人在robots.txt的是什麼?這並不簡單。例如,我在根目錄中有一個PHP文件INDEX(帶有幾乎所有的內容),dir中帶有引擎,稱爲ADMIN。在這個目錄中有很多目錄和文件,其中一些實際上是根文件夾中INDEX所使用的數據。這裏的要點是,如果我將阻止來自機器人的ADMIN目錄,它是否仍會正常獲取INDEX中從ADMIN目錄中獲取的所有數據?

  • 和以前一樣,有一個與產生的下一個頁面自動鏈接(有限,當然,在ADMIN目錄取決於數據量),PHP腳本INDEX PHP文件。這通常是由機器人將其作爲普通鏈接和後續鏈接中的所有數據進行索引的?

  • 如果我想阻止ADMIN目錄及其中的所有文件從機器人,是否足以寫這個?

    User-agent: * 
    Disallow: /ADMIN/ 
    

回答

1

機器人不關心你的內部服務器端的系統(當然,他們不能看到它開始)。

他們像訪問者一樣訪問您的網站:通過以下鏈接(來自您自己的網站,來自外部網站,來自您的站點地圖等),有些人可能也會「猜測」網址。

那麼重要的是你的網址。

如果您有一個不想漫遊器訪問(「爬網」)的URL,請在您的robots.txt中禁止它。

此robots.txt

# hosted at http://example.com/ 

User-agent: * 
Disallow: /ADMIN/ 

將不允許的URL抓取類似如下:

  • http://example.com/ADMIN/
  • http://example.com/ADMIN/index.html
  • http://example.com/ADMIN/CMS/foo
  • http://example.com/ADMIN/images/foo.png

但下面的網址仍然被允許抓取:

  • http://example.com/ADMIN
  • http://example.com/admin/
  • http://example.com/foo/ADMIN/
+0

好的,非常感謝。但是......周圍有很多黑客機器人,我很害怕他們。其中一些不遵守寫入robots.txt的規則。問題是:1)如何阻止違反robots.txt規則的機器人2)如何防止黑客機器人 - 比如索引機器人禁止的文件。txt(不是專門的服務器端代碼文件)? – dotzzy 2015-03-13 14:00:40

+0

@dotzzy:是的,只有禮貌機器人跟隨你的robots.txt。對於其他機器人,您必須在服務器端阻止它們(例如,如果您使用Apache和/或通過PHP通過'.htaccess')。困難的部分是如何檢測它們。 - 理想情況下,您會強化自己的網站:不要發佈您不想獲取索引的內容(例如,將它放在某種登錄名下),並確保您的應用程序是安全的。 – unor 2015-03-13 14:26:54

+0

好吧,如果我將拒絕,只允許從我的IP到一些目錄/文件,這些機器人將無法訪問它們,對不對?或者他們可能會使用一些技巧並讓他們掃描? – dotzzy 2015-03-13 14:41:32