2011-09-07 102 views
5

我們要建立在我們的HTML的身體一點點蜜罐的圖像來檢測刮刀/壞機器人。諮詢檢測刮刀/壞機器人

有沒有人在之前設置過類似的東西?

我們想最好的方式去在這將是:

一)通過註釋的HTML出來:

<!-- <img src="http://www.domain.com/honeypot.gif"/> --> 

B)CSS樣式應用於圖像,將使其隱藏從通過瀏覽器:

.... id="honeypot" .... 

#honeypot{ 
    display:none; 
    visibility:hidden; 
} 

使用上面沒有人預見到其中一個適當的和真正的用戶代理會拉的圖像/企圖使其任何情況呢?

的honeypot.gif將是一個mod_rewritten PHP腳本,我們將盡我們的記錄。

雖然我明白,上述2個條件可以通過任何編碼刮刀被跳過,這樣做至少可以灑在很髒的人的一些見解。

任何其他的指針,以最好的方式去呢?

+0

你對「壞機器人」的定義是什麼?你想阻止什麼樣的事情?一個在抓取你的頁面時表現不佳的bot可能不會成爲像這樣的html解析事件的受害者 - 你可能無法抓住它。可能有更簡單的方法來檢測您要查找的內容。 –

+0

我不明白這是一個蜜罐實現。通常它涉及一個表單域,它通過腳本/ css讓用戶隱藏起來,這些腳本不知不覺地填充。 – TheCodeKing

+0

儘管它聽起來過於寬泛,但我們對壞bot/scraper的定義是通過useragent不能識別源產品(閱讀:domain.com)或者說domain.com不提供禁止通過機器人訪問的方法。文本。我們看到很多這些小螞蟻。我們已經有了一個相當全面的系統,可以讓我們通過useragent /缺乏,缺少接受標題,命中/間隔等等等等來檢測這些。所以這將是這個系統的進一步補充,可以給我們一個額外的+在哪些方面集中手動人力。 –

回答

3

機器人會忽略您的img標籤,因爲它在評論中。

相反,你可以考慮創建包含在同一網站上的鏈接觸發URL一種無形的div(最好在同一目錄下,如果機器人是深度敏感)。

+0

+1爲深度敏感。 –

+0

我們最終做了兩個,隱藏的圖像和隱藏的鏈接。謝謝! –

0

國際海事組織我認爲任何好的刮板都會知道如何通過使用SGML parser的HTML,並且只是跳過評論的圖像,但我可能是錯的。

在最當它發生,但並沒有提供一種方式,在刮刀來對付它會給你一個想法。你可能會更好地提出一些基於cookie的解決方案,因爲大多數機器人可能不關心這些。您也可以在請求之間隨機化圖像路徑,並在短時間後過期。

檢查引薦是一個明顯的例子,如果你不關心不支持他們,隱藏/改變他們的瀏覽器或人。