2016-08-16 26 views
0

可能是一個愚蠢的問題...我想用python腳本從網站每10或20分鐘獲取一些數據。用於從網站獲取數據的Python3腳本(請求)看起來「可疑」?

我使用:

requests.get("http://somewebsite.php") 
data = response.text 

來獲取數據,其餘基本上是從字符串值的提取等

我想循環播放,並作出新的請求該網站每10或20分鐘即可獲取數據。

假設我跑這個腳本幾個小時:

  • 難道看起來很可疑的網站的所有者?
  • 它會以任何方式'傷害'該網站或僅僅等同於刷新瀏覽器中的網站?

我只是不想有人在某個地方認爲當我只是在學習python的時候發生惡意的事情。數據並不重要,我只想看看我寫的腳本是否有效。我只是想,在運行之前我可能會問這裏。

感謝提前任何答覆。

+2

我們應該如何知道網站所有者的想法?我們怎麼可能知道他們爲了達到目的而監視功能?從更廣泛的意義上說,爲什麼你需要使用「真實」的網站?設置自己的Web服務器並儘可能多地濫用它是很微不足道的。 –

+1

這些問題經常出現,我總是問同樣的事情:你是否擁有這個網站?你有與網站所有者達成的協議嗎?網站是人們的財產,有時(經常)與他們的生計息息相關。除非你知道你在做什麼並且有一個協議,否則不要做隨意的請求(尤其是不尋常的請求)。如果他們有ToS,請按照它。如果他們有API,請使用它。如果你被禁止或阻止,**不要嘗試解決它**。 –

+1

首先 - 甚至問你好。站點所有者將能夠看到請求來自Python腳本(除非您更改了用戶代理),但每10或20分鐘發出一個請求就不會使服務器停滯不前。如果您決定鎖定請求,請考慮等待(如'time.sleep(5)')。如果該站點不允許您在沒有用戶代理的情況下發送請求,那麼這是一個很好的指示器,他們不希望腳本訪問它。 – n1c9

回答

1

雖然你不想做任何傷害,你可以錯誤地配置意外腳本(我們只是人類),生成可疑活動和真實的人可能會花一些時間來調查你的活動(我不是在開玩笑,這些事情真的發生了)。

我的建議是使用測試服務像https://httpbin.org/與請求庫玩。 HttpBin實際上是由啓動請求庫的同一個人創建的(Kenneth Reitz)。