商業網站(ASP.NET MVC)的內容通常會被競爭對手抓取。這些人是程序員,他們使用複雜的方法來抓取網站,以便通過IP識別它們是不可能的。 不幸的是,用圖像替換值不是一種選擇,因爲該網站應該仍然保持屏幕閱讀器(JAWS)的可讀性。保護爬蟲網站內容
我個人的想法是使用robots.txt:從頁面上訪問一個共同的URL(:http://example.com?itemId=1234禁止:http://example.com?itemId=123下128這可以被僞裝成一個正常的項目詳細信息的鏈接,而是從普通用戶的有效URL隱藏)禁止爬蟲。如果IP所有者輸入禁止鏈接,則顯示CAPTCHA驗證。 一個普通用戶永遠不會按照這樣的鏈接進行瀏覽,因爲它不可見,所以Google不必抓取它,因爲它是僞造的。與此相關的問題是屏幕閱讀器仍然讀取鏈接,我認爲這不值得實施。
如果您的競爭對手足夠關注使用不同的代理,爲什麼他們應該關心您的robots.txt? – Jacob
在屏幕閱讀器閱讀的隱藏文本中,爲什麼不說'忽略此鏈接請僅限於漫遊器' –
+1好問題。 –