2015-05-12 32 views
1

我們計劃爲一些公司提供工作平臺服務。我們已經爲我們的所有客人/訪客提供了幾千個工作機會。防止機器人刮我們的內容/超載我們的服務器

由於昨天我們注意到我們的服務器負載很瘋狂,當我們檢查日誌時,我們發現我們有不同的IP地址每秒有多個站點請求。然而,頁面被調用的順序表明它是相同的用戶/機器人

我們希望爲公衆提供服務,但如果機器人大幅降低服務器速度或迫使我們換新硬件,那麼我們就會遇到麻煩。

目前,我們正在顯示我們所有的工作內容iframe中,想編碼器: http://www.tareeinternet.com/scripts/iframe-encoder/

幫助解決我們的問題呢?

或者我們有什麼選擇?它特別煩人,因爲我們沒有用戶會話或經常性的IP地址(我認爲他們正在使用可正常切換的代理服務器)

+1

你可以製作一個腳本,在做這些奇怪的請求時阻止IP。這至少會迫使他們定期更換代理人,這可能會讓他們退後一步。 – DocRattie

+0

我想你還是希望Google bot能夠抓取你的網站,對嗎? –

+0

看到我的[闡述的答案] [1]到類似的問題。 [1]:http://stackoverflow.com/questions/28995620/im-being-scraped-how-can-i-prevent-this/29006465#29006465 –

回答

0

您是否檢查過重複數據的標頭?如果它們,例如,有一個重複的用戶代理,你可以可以阻止那些:

  • 阿帕奇

SetEnvIfNoCase User-Agent "^Wget" bad_bot 
 
SetEnvIfNoCase User-Agent "^EmailSiphon" bad_bot 
 
SetEnvIfNoCase User-Agent "^EmailWolf" bad_bot 
 
<Directory "/var/www"> 
 
     Order Allow,Deny 
 
     Allow from all 
 
     Deny from env=bad_bot 
 
</Directory>

  • 代碼:您可以檢查每個請求的具體標題並將其重定向到其他地方。
相關問題