我問這個問題是因爲我正在創建一個蜘蛛來從blogger.com收集大學數據可視化項目的數據。如果我多次請求,請<如何在此插入流行網站>限制我訪問他們的網站?
蜘蛛會在博主的browse function上尋找約17,000個值,並且(匿名)保存某些符合正確標準的值。
我一直在運行蜘蛛(用PHP編寫),它工作正常,但我不想讓我的IP列入黑名單或類似的東西。有沒有人有企業網站的任何知識和他們對這類事情的限制?
此外,如果有適當的限制,我能做些什麼來規避它們?目前我所能想到的僅僅是幫助問題;在對站點的調用之間添加一個隨機延遲(0到5秒之間)或通過隨機代理運行腳本來掩飾請求。
通過不得不做類似上述方法的事情,這讓我覺得自己好像在做錯事。如果他們爲了任何原因阻止我,我會很生氣,因爲blogger.com由Google所有,他們的主要產品是一個網絡蜘蛛。 Allbeit,他們的蜘蛛不會只將它的請求發送到一個網站。
+1用於API的使用。即使是API也會有一定的限制(例如每秒呼叫次數爲x),但它會更穩定,尤其是合法。 – keyboardP 2009-12-27 18:34:06
謝謝,我不知道甚至有一個API。但是,Google的博客API僅允許您按用戶進行操作。我需要根據每個位置或每個興趣點獲取相關信息。即我需要讓所有用戶擁有特定的位置或興趣。 (注意:當我說讓所有用戶,我實際上並不需要所有的用戶,100-500之間會沒事的)。 我想,我需要通過電子郵件發送電子郵件或更改我的方法。 – betamax 2009-12-27 18:44:03
問他們總是包含如果他們拒絕你,他們知道你是誰的風險。但我認爲最好是冒着一些限制的風險,並將其列入黑名單。 – 2009-12-27 18:47:18