我們要建立在我們的HTML的身體一點點蜜罐的圖像來檢測刮刀/壞機器人。諮詢檢測刮刀/壞機器人
有沒有人在之前設置過類似的東西?
我們想最好的方式去在這將是:
一)通過註釋的HTML出來:
<!-- <img src="http://www.domain.com/honeypot.gif"/> -->
B)CSS樣式應用於圖像,將使其隱藏從通過瀏覽器:
.... id="honeypot" ....
#honeypot{
display:none;
visibility:hidden;
}
使用上面沒有人預見到其中一個適當的和真正的用戶代理會拉的圖像/企圖使其任何情況呢?
的honeypot.gif將是一個mod_rewritten PHP腳本,我們將盡我們的記錄。
雖然我明白,上述2個條件可以通過任何編碼刮刀被跳過,這樣做至少可以灑在很髒的人的一些見解。
任何其他的指針,以最好的方式去呢?
你對「壞機器人」的定義是什麼?你想阻止什麼樣的事情?一個在抓取你的頁面時表現不佳的bot可能不會成爲像這樣的html解析事件的受害者 - 你可能無法抓住它。可能有更簡單的方法來檢測您要查找的內容。 –
我不明白這是一個蜜罐實現。通常它涉及一個表單域,它通過腳本/ css讓用戶隱藏起來,這些腳本不知不覺地填充。 – TheCodeKing
儘管它聽起來過於寬泛,但我們對壞bot/scraper的定義是通過useragent不能識別源產品(閱讀:domain.com)或者說domain.com不提供禁止通過機器人訪問的方法。文本。我們看到很多這些小螞蟻。我們已經有了一個相當全面的系統,可以讓我們通過useragent /缺乏,缺少接受標題,命中/間隔等等等等來檢測這些。所以這將是這個系統的進一步補充,可以給我們一個額外的+在哪些方面集中手動人力。 –