如何使用urllib重新使用Python檢索實時價格數據

我試圖從dukascopy.com請求價格數據，但我遇到類似問題this user，其中價格數據本身不是html的一部分。因此，當我跑我的基本的urllib代碼來提取數據：如何使用urllib重新使用Python檢索實時價格數據

import urllib.request 
url = 'https://www.dukascopy.com' 
headers = {'User-Agent':'Mozilla/5.0 (Linux; Android 6.0.1; Nexus 5X Build/MMB29P) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/41.0.2272.96 Mobile Safari/537.36 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)'} 
req = urllib.request.Request(url, headers = headers) 
resp = urllib.request.urlopen(req) 
respData = resp.read() 
print(str(respData))

價格數據不能被發現。回到this post，用戶Mark發現了另一個數據被調用的url。這可以應用於收集這裏的數據嗎？

來源

2016-12-30 L. Chen

您需要模擬瀏覽器並可以處理JavaScript來加載價格數據的內容。使用硒是一種選擇。 – jinksPadlock

dukascopy是否具有開發人員友好的獲取數據的方式？我搜索了「dukascopy開發者」，發現了一個java api和其他鏈接。不確定是否有幫助你。 – tdelaney

您還需要確保您所做的不違反條款和服務。在某些情況下，未經許可擅自抓取可能是非法的。 –

試用dryscape。你可以用它來抓取JavaScript呈現的頁面。不要使用正則表達式模塊解析網頁。這不是一個好主意。閱讀這個爲什麼你不應該用正則表達式解析HTML頁面：HTML with regex。使用美麗進行分析。

import dryscrape 
from bs4 import BeautifulSoup 

url = 'https://www.dukascopy.com' 
session = dryscrape.Session() 
session.visit(url) 
response = session.body() 
soup=BeautifulSoup(response) 
print soup

來源

2016-12-30 17:03:15 MYGz

那麼你的回答沒有錯，它的OP要求'urllib'這樣做。 –

@EmettSpeer \t任何讓OP更接近解決方案的東西都可以作爲答案發布。而且可以說「不要嘗試，嘗試這個」。 – MYGz

我不是那個意思。 –

如何使用urllib重新使用Python檢索實時價格數據

回答

相關問題