2013-10-10 69 views
1

有幾個機器人在我們的網站上抓取頁面,我想知道我如何標記內容,以便稍後搜索它 - 找出被抓取的內容在哪裏結束?如何標記您的網頁以找到您的內容?

我在頁面上設置了一個唯一的HTML註釋,但可能不會被刮掉。

我們頁面上的所有鏈接都是JavaScript鏈接,通過JS函數進行路由 - 這可能有助於我們的其餘內容被刮掉。

有沒有一種方法來爲此目的在網站上標記鏈接?

+0

你能舉一個你想做什麼的例子,它有點混亂。 –

+0

_有幾臺機器人在我們的網站上刮取頁面_ - 你的意思是你有代理人爲了向你的網站添加內容或者你的網站被別人的機器人刮掉了嗎? – halfer

回答

1

如果您在鏈接中使用特定的utm標記,則可以完成此操作。顯然,你需要做出非常獨特的東西。 UTM標籤通常用於廣告,但它們可能被重新利用。這裏是他們的快速解釋: http://www.intownwebdesign.com/google-analytics/google-analytics-utm-link-tagging-explained.html

我的意見,它仍然很難追蹤網絡刮板只是通過尋找鏈接。刮板通常會刮掉標籤,鏈接等。您應該設法阻止他們擺脫您的內容,但這是我偏見的觀點。

爲了充分披露,我是Distil Networks的共同創始人,所以我們推動人們阻止機器人。

相關問題