2012-08-16 28 views
0

這也許是一個模糊的問題,但它看起來像一些機器人爬行我的網站,並非常糟糕。它似乎是從我的應用程序js文件猜測ID和把這些進入的網址,例如:Rails&Javascript:奇怪的404s ....也許是一個爬蟲?

Couldn't find Post with id=keypress 

而且更奇怪的是,HTTP引用被列爲application.js中。

有沒有人遇到過這個?關於如何阻止這些爬蟲的任何想法?

回答

0

如果它是一個合法的履帶,可以在放置robot.txt文件在根域目錄停止 - http://en.wikipedia.org/wiki/Robots_exclusion_standard

您將包括在robots.txt文件中的以下文字:

User-agent: * 
Disallow: /YOUR_PATH_TO_FILE/application.js 

還可以將此標記添加到您的網頁標題:

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"> 

如果是惡意的爬蟲,這當然也不會停止。對於不尊重robots.txt的抓取工具,您還可以採用其他方法,但這取決於您使用的是什麼Web服務器。

+0

雖然這會阻止所有抓取工具,包括搜索引擎抓取工具,對吧?我懷疑他會這麼做。我認爲最好從crawler中排除application.js。 – GorrillaMcD 2012-08-16 19:26:33

+0

好點。固定。 – EkoostikMartin 2012-08-16 20:25:55