2010-08-27 46 views
2

網絡開發中有什麼方法可以確保抓取工具無法抓取您的網站嗎?讓網絡抓取工具離開您的網站

User-agent: * 
Disallow:/

注意,這不會阻止不文明的機器人從建立索引:

+1

爲什麼?這是因爲你在開發中,而是在一個「活的」區域?或者你甚至想要這個活的網站? – detly 2010-08-27 06:35:02

回答

3

確保?你可以用robots.txt禮貌地問(但他們可以被忽略),你可以用CAPTCHA(但它們可以被擊敗並給普通用戶施加一個障礙)擋住障礙,並且你可以監視每個人的行爲訪客尋找殭屍模式(但機器人可以代理週期和速率限制)。

1

你可以在你的站點的根目錄,這將防止文明機器人從索引它放置robots.txt文件包含以下內容。阻止他們的唯一方法是使用Captcha等技術。

當然,最好使用專門的開發機器,在您的網站正在建設時無法從互聯網訪問。

0

使用robots.txt指示或允許/禁止機器人將您的網站編入索引。

+0

請注意,爬行者可以忽略'robots.txt',正如David和Darin都提到的那樣。 – 2010-08-27 06:35:08

1

您還可以根據crawlers user agent拒絕訪問,當然這假設爬網程序使用的用戶代理與常規瀏覽器不同。

+0

「壞」爬蟲總是可以僞造用戶代理,所以它也只是可以提供幫助的方法之一,但是mot禁止它們 – Laimoncijus 2010-08-27 06:52:24