我的(Python)AppEngine程序從另一個網站獲取網頁以從中抓取數據 - 但似乎第三方網站阻止了Google App Engine的請求! - 我可以從開發模式獲取頁面,但不能部署。AppEngine通過免費代理獲取
我可以通過使用某種免費代理來解決這個問題嗎?
我可以使用免費代理來隱藏我從App Engine請求的事實嗎?
如何查找/選擇代理? - 我需要什麼? - 我如何執行提取?
還有什麼我需要知道或注意的?
我的(Python)AppEngine程序從另一個網站獲取網頁以從中抓取數據 - 但似乎第三方網站阻止了Google App Engine的請求! - 我可以從開發模式獲取頁面,但不能部署。AppEngine通過免費代理獲取
我可以通過使用某種免費代理來解決這個問題嗎?
我可以使用免費代理來隱藏我從App Engine請求的事實嗎?
如何查找/選擇代理? - 我需要什麼? - 我如何執行提取?
還有什麼我需要知道或注意的?
也許正確的做法是向您正在抓取的網站的所有者請求許可。
即使您使用代理,通過代理傳入的請求仍然很有可能最終會被阻止。
您是否考慮更改用戶代理?
result = urlfetch.fetch(u,headers = {'User-Agent': "Mozilla/5.0"},allow_truncated=True)
該API將始終附加「AppEngine-Google;」到用戶代理,但是如果限制不是基於IP地址範圍的話,這可能會起作用。
感謝您的想法,但這沒有奏效(在這種情況下)。 – 2010-01-12 21:04:30
目前我有同樣的問題,我想這個解決方案(沒有嘗試過):
- >開發獲取你想要什麼 一個應用程序 - >本地運行 - >您取從您最初的
本地服務器,以便代理是您的計算機,你知道不堵塞
讓我知道,如果它的作品!
是的,這將工作......但有點挫敗使用App Engine的目的(不必運行自己的服務器)。 最後,我只是切換到另一個網站(海盜灣),它響應來自App Engine的請求。 (結果是http://nicksmovietorrents.appspot.com) – 2010-02-08 02:05:00
那麼公平,如果他們不希望你這樣做,那麼你可能不應該這樣做。不好意思。
但是,如果你真的想這樣做,最好的方法是創建一個簡單的代理腳本,並在VPS或某臺具有足夠體面連接的計算機上運行它。
基本上,您將REST API從您的服務器公開到您的GAE,然後服務器將所有請求都發送到目標站點並返回輸出。
你在說什麼是應用引擎sdk中的一個有效的錯誤。看看http://code.google.com/p/googleappengine/issues/detail?id=544的錯誤更新,以及java和python的解決方法。
詢問權限?...好吧...我寧可不要(這是一個洪流列表網站)。此外,我認爲他們不會取消屏蔽所有Google Apps,而只能取消我的Google應用。也許他們阻止了谷歌應用程序,因爲其他人(不是我)會寫出令人討厭的谷歌應用程序機器人,因爲他們的服務器太多。我仍然想嘗試一個代理 - 我只是不知道如何去做。 (也許我可以在家裏爲自己的目的運行我自己的代理服務器?嗯......) – 2010-01-12 21:16:15
它是如何成爲一個洪流網站影響你的請求權限的能力?網站上有沒有關於你違規的政策? – 2010-01-12 22:25:27