讓網絡抓取工具離開您的網站

網絡開發中有什麼方法可以確保抓取工具無法抓取您的網站嗎？讓網絡抓取工具離開您的網站

User-agent: * 
Disallow:/

注意，這不會阻止不文明的機器人從建立索引：

爲什麼？這是因爲你在開發中，而是在一個「活的」區域？或者你甚至想要這個活的網站？ – detly 2010-08-27 06:35:02

確保？你可以用robots.txt禮貌地問（但他們可以被忽略），你可以用CAPTCHA（但它們可以被擊敗並給普通用戶施加一個障礙）擋住障礙，並且你可以監視每個人的行爲訪客尋找殭屍模式（但機器人可以代理週期和速率限制）。

2010-08-27 06:32:49 Quentin

你可以在你的站點的根目錄，這將防止文明機器人從索引它放置robots.txt文件包含以下內容。阻止他們的唯一方法是使用Captcha等技術。

當然，最好使用專門的開發機器，在您的網站正在建設時無法從互聯網訪問。

2010-08-27 06:31:59

使用robots.txt指示或允許/禁止機器人將您的網站編入索引。

2010-08-27 06:33:13 Kangkan

請注意，爬行者可以忽略'robots.txt'，正如David和Darin都提到的那樣。 – 2010-08-27 06:35:08

您還可以根據crawlers user agent拒絕訪問，當然這假設爬網程序使用的用戶代理與常規瀏覽器不同。

2010-08-27 06:37:05

「壞」爬蟲總是可以僞造用戶代理，所以它也只是可以提供幫助的方法之一，但是mot禁止它們 – Laimoncijus 2010-08-27 06:52:24

回答