如果我多次請求，請<如何在此插入流行網站>限制我訪問他們的網站？

我問這個問題是因爲我正在創建一個蜘蛛來從blogger.com收集大學數據可視化項目的數據。如果我多次請求，請<如何在此插入流行網站>限制我訪問他們的網站？

蜘蛛會在博主的browse function上尋找約17,000個值，並且（匿名）保存某些符合正確標準的值。

我一直在運行蜘蛛（用PHP編寫），它工作正常，但我不想讓我的IP列入黑名單或類似的東西。有沒有人有企業網站的任何知識和他們對這類事情的限制？

此外，如果有適當的限制，我能做些什麼來規避它們？目前我所能想到的僅僅是幫助問題;在對站點的調用之間添加一個隨機延遲（0到5秒之間）或通過隨機代理運行腳本來掩飾請求。

通過不得不做類似上述方法的事情，這讓我覺得自己好像在做錯事。如果他們爲了任何原因阻止我，我會很生氣，因爲blogger.com由Google所有，他們的主要產品是一個網絡蜘蛛。 Allbeit，他們的蜘蛛不會只將它的請求發送到一個網站。

2009-12-27 betamax

這很可能是他們有某種限制，是的有辦法繞過他們（例如機器人農場和使用隨機代理），但它們很可能沒有一個是完全合法的，技術上也不可行:)

如果您正在訪問博客，您是不是可以使用API key登錄並直接查詢數據？與抓取他們的頁面相比，它更可靠，更容易出問題，反正可能會被禁止，並且一旦請求的數量足夠大，他們開始關心就會導致麻煩。 Google非常慷慨地提供每個API密鑰允許的流量。

如果一切都失敗了，爲什麼不寫一封電子郵件給他們。谷歌對學術項目友善，並且如果需要的話，他們可能會給予您更多的流量。

來源

2009-12-27 18:32:28

+1用於API的使用。即使是API也會有一定的限制（例如每秒呼叫次數爲x），但它會更穩定，尤其是合法。 – keyboardP 2009-12-27 18:34:06

謝謝，我不知道甚至有一個API。但是，Google的博客API僅允許您按用戶進行操作。我需要根據每個位置或每個興趣點獲取相關信息。即我需要讓所有用戶擁有特定的位置或興趣。（注意：當我說讓所有用戶，我實際上並不需要所有的用戶，100-500之間會沒事的）。我想，我需要通過電子郵件發送電子郵件或更改我的方法。 – betamax 2009-12-27 18:44:03

問他們總是包含如果他們拒絕你，他們知道你是誰的風險。但我認爲最好是冒着一些限制的風險，並將其列入黑名單。 – 2009-12-27 18:47:18

如果你想知道的話，寫一個電子郵件到blogger.com並詢問他們。

來源

2009-12-27 18:34:09 Gordon

-2

你可以通過TOR來申請，你每次都會得到一個不同的ip地址。

來源

2009-12-27 18:36:41

由於您正在編寫一個蜘蛛，請確保它讀取robots.txt文件並進行相應處理。另外，HTTP規則之一是在同一臺服務器上不要有超過2個併發請求。別擔心，Google的服務器真的很強大。如果你只讀一頁，他們可能甚至不會注意到。如果你注射1秒的間隔，它將是完全無害的。另一方面，使用僵屍網絡或其他分佈式方法被認爲是有害的行爲，因爲它看起來像DDOS攻擊。你真的不應該朝那個方向思考。

來源

2009-12-27 18:39:35

+1好點，尤其是看到他關心他IP地址的好名聲和聲譽。 – 2009-12-27 18:41:57

感謝robots.txt上的提示，我還沒有考慮到這一點。當你這樣說時，它會讓我看起來好像我的流量會在所有其他訪問博客的流量中丟失，而我可以想象它會發生什麼。 *但是*他們必須有適合我的要求的系統。 – betamax 2009-12-27 18:48:04

服從'robots.txt'的主要+1。 – ceejayoz 2009-12-27 19:45:22

如果我多次請求，請<如何在此插入流行網站>限制我訪問他們的網站？

回答

相關問題