2011-06-19 76 views
0

我在刮刀腳本,我買的這是行的PHP代碼:USERAGENT在PHP腳本刮板

$userAgent = 'Googlebot/2.1 (http://www.googlebot.com/bot.html)'; 

我猜它的意思劇本就像是Googlebot的,對嗎?如果是這種情況,我可以改變它,以便它像我自己的機器人的名稱,如搜索框?

+1

告訴你的代碼沒有使用'$ userAgent'變量 –

+0

這是卑鄙 - 騙你是谷歌 – zerkms

+0

這是爲了誰是你快樂的水蛭網站的人。當谷歌颳起他們的網站時,每個人都很高興。 – stefgosselin

回答

2

用戶代理是完全建議性的,它不應該對呈現的頁面有任何影響(實際上,這將違背Google's guidelines並導致被拋出索引)。它應該包含一個URL或電子郵件的網站管理員可以用來聯繫行爲不端的機器人的所有者。

您不應該假裝成GoogleBot,而是將您的電子郵件地址或主頁包含在用戶代理中。

$userAgent = 'scraper/1 ([email protected])'; 
+0

@Callum Whyte每一個字符串都會「工作」,你很棒。 – phihag

0

如果是這樣,我可以改變它,以便它是我自己的機器人的名稱,如搜索框?

這取決於腳本是幹什麼的,以及它擦的是什麼類型的網站。谷歌機器人代理字符串出於某種原因 - 可能到trick news websites into showing paid content,或更天真地,以獲得搜索引擎優化版本的內容。

如果你不需要依賴這些「副作用」,你可以選擇你想要的任何用戶代理字符串。隨着機器人,這是習慣於包括單詞「機器人」,和網站管理員可以獲得更多信息的URL。

+0

更爲普遍的原因是爲了讓目標網站服務於搜索引擎友好的版本,這是合理的,因爲這個腳本基本上是相同的(僅用於略有不同的目的)。 – tdammers

+0

@tdammers好點,補充。 –