2010-10-22 31 views
3

我有一個使用this ajaxForm jQuery plugin的表單。表單提交,當它完成時,使用$ .get()將一些新內容加載到頁面。

我的問題是,Googlebot「出現」將索引$ .get()方法中的url。

我的第一個問題是,這甚至可能嗎?我的印象是,Googlebot大部分都沒有評估JavaScript(我讀了一些關於它能夠使用!#對url進行索引的內容)。

我的第二個問題是,如果Google將此電話索引到該網址,是否有辦法阻止它?

在此先感謝。

+2

實際上,Google確實會評估相當多的JavaScript。最常見的js導航技術是可以抓取的。一些Flash內容。他們比你想象的更聰明...;) – 2010-10-22 06:31:14

+0

「他們比你想象的更聰明......」)我爲什麼不感到驚訝:)。感謝信息 – fehays 2010-10-22 06:42:27

回答

3

你可以robots.txt這個文件具體的,googlebot 應該尊重它。

robotstxt.org

User-agent: * 
Disallow: /~joe/junk.html 
Disallow: /~joe/foo.html 
Disallow: /~joe/bar.html 

你也可以看看谷歌的Webmaster Central從列表中刪除文件。

2

首先,您需要檢查確實是GoogleBot,因爲任何人都可以僞裝成GoogleBot,即使是合法用戶。

推薦的技術將是 做反向DNS查找,驗證 名稱是在googlebot.com 域,然後使用該 的googlebot做相應 向前DNS-> IP查詢。 com名稱。

來自Official Google Webmaster Central Blog: How to verify Googlebot

+0

謝謝@sanmai。這是一個很好的信息,但說實話,我只是說googlebot,因爲我在google.com上查找鏈接。 – fehays 2010-10-22 06:44:58

1

googlebot幾乎將inline-javascript中的每個字符串解釋爲包含「/」或常用文件extenstion(「.html」,「.php」)的URL ......特別是第一個非常非常煩人。

對不想抓取的內聯JS中的每個URL進行混淆。即:用「|」代替「/」在服務器端,並使用JS中的包裝器方法來替換「|」再次「/」。

是的,這是主要惱人的,有更好的方法,即:讓所有的js在外部文件中不可抓取。

robots.txt解決方案並非真正的解決方案。因爲這些網址仍然可以找到,並被發現(管道谷歌用來確定下一步要抓取的內容),但是抓取被阻止,這基本上是一次錯過的機會。

相關問題