Rails＆Javascript：奇怪的404s ....也許是一個爬蟲？

這也許是一個模糊的問題，但它看起來像一些機器人爬行我的網站，並非常糟糕。它似乎是從我的應用程序js文件猜測ID和把這些進入的網址，例如：Rails＆Javascript：奇怪的404s ....也許是一個爬蟲？

Couldn't find Post with id=keypress

而且更奇怪的是，HTTP引用被列爲application.js中。

有沒有人遇到過這個？關於如何阻止這些爬蟲的任何想法？

2012-08-16 earnold

如果它是一個合法的履帶，可以在放置robot.txt文件在根域目錄停止 - http://en.wikipedia.org/wiki/Robots_exclusion_standard

您將包括在robots.txt文件中的以下文字：

User-agent: * 
Disallow: /YOUR_PATH_TO_FILE/application.js

還可以將此標記添加到您的網頁標題：

<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">

如果是惡意的爬蟲，這當然也不會停止。對於不尊重robots.txt的抓取工具，您還可以採用其他方法，但這取決於您使用的是什麼Web服務器。

2012-08-16 18:29:12 EkoostikMartin

雖然這會阻止所有抓取工具，包括搜索引擎抓取工具，對吧？我懷疑他會這麼做。我認爲最好從crawler中排除application.js。 – GorrillaMcD 2012-08-16 19:26:33

好點。固定。 – EkoostikMartin 2012-08-16 20:25:55

回答