2010-09-06 51 views
0

我爬行的SNS與Python編寫如何抓取403禁止SNS

它的工作原理很長時間爬行,但前幾天,該網頁從我西弗斯得到了錯誤403 FORBIDDEN。

我試圖更改cookie,更改瀏覽器,更改帳戶,但都失敗了。

似乎是被禁止的服務器在同一個網段。

我該怎麼辦?竊取別人的IP? = = ...

THX很多

+2

你認爲錯誤403 **禁止**意味着什麼? – 2010-09-06 01:22:40

+1

你的機器人應該表現得很好。如果你試圖繞過規則,那麼你可能也會忽略robots.txt,這也會給其他人帶來問題。良好的行爲和道德對每個人都是最好的。 – 2010-09-06 02:26:31

+0

是的,被列入黑名單......我以爲我的行爲並不壞,因爲我在他們的縱容下爬了很久很久。也許規則改變了...... = = – wdestinyx 2010-09-06 04:36:54

回答

1

看起來你已經在該子網,路由器水平被列入黑名單,可能是因爲您(或他人在子網)違反了使用條款,機器人。 txt,網站地圖中指定的最大爬行頻率等。

解決方案不是技術性的,而是社交性的:與網站管理員聯繫,妥善保護,瞭解您(或您的同事之一)做錯了什麼,令人信服地承諾永遠不要再做,再次道歉直到他們刪除列入黑名單。如果你可以給該網站管理員任何理由爲什麼他們應該想讓你抓取該網站(例如,你的抓取飼料搜索引擎,將帶來他們的流量,或類似的東西),更好! - )

+0

我正在聯繫WM ... 社會工程,這是一個想法... thx〜 – wdestinyx 2010-09-06 04:35:27

+0

@wdestinyx,好吧,我不是暗示社會工程的意義任何僞裝或操縱(在其中經常使用),只是人類之間的正常社會習俗(當一個人做完事情/錯誤的事情道歉並且承諾不再做時,另一方接着原諒並避免/停止進一步行動反措施,例如 - 「爲了人類,爲了原諒神性」等等.-)。 – 2010-09-06 14:44:12

+0

爲什麼我覺得我已經把你的網站列入黑名單〜只是一種感覺〜我會真誠地與網站管理員交談,並檢查我的禮貌:) – wdestinyx 2010-09-07 04:34:29