扭曲的HTTP客戶端下載整個頁面並測量下載時間

我嘗試使用Twisted Agent來實現HTTP客戶端並下載完整網頁的特定URL，最後測量該特定網站的加載時間頁。不幸的是，我所提供的代碼並沒有遵循HTML標籤中的內部URL，因此，從瀏覽器上的其他網站下載一些內容後需要10秒完成加載的網頁將不到一秒鐘完全加載在我的代碼中，這表明我的代碼不正確！即使我使用BrowserLikeRedirectAgent和RedirectAgent，結果也是一樣的。任何意見表示讚賞。扭曲的HTTP客戶端下載整個頁面並測量下載時間

def init_http(url): 
    userAgent = 'Twisted/%s (httpclient.py)' % (version.short(),) 
    agent = BrowserLikeRedirectAgent(Agent(reactor)) 

    def response_time_calculator(test,t1): 
     end_time = time.time() 
     response_time = end_time - t1 
     print ("Got the Whole page in: ", response_time) 

    start_time = time.time() 

    d = agent.request(
     b'GET', str(url), Headers({'user-agent': [userAgent]})) 
    def cbResponse(response): 
     if response.length is not UNKNOWN_LENGTH: 
      print('The response body will consist of', response.length, 'bytes.') 
     else: 
      print('The response body length is unknown.') 
     d = readBody(response) 
     d.addCallback(response_time_calculator, start_time) 
     return d 
    d.addCallback(cbResponse)

來源

2017-09-05 DeFoG

time.clock只測量Windows上的wallclock時間（奇怪）。使用time.time可測量所有平臺上的掛鐘時間。

另外，您必須實現您關注鏈接的部分。 Agent.request準確下載您請求的資源。如果該資源是一些帶有其他資源鏈接的HTML，則必須解析數據，提取鏈接並遵循它們。

你可能想看看scrapy。如果沒有，您可以添加一個稍小（不太有用）的依賴項，如html5lib。喜歡的東西：

d = readBody(response) 
    d.addCallback(load_images) 
    d.addCallback(response_time_calculator, start_time) 

... 

from twisted.internet.defer import gatherResults 
import html5lib 

def load_images(html_bytes): 
    image_requests = [] 
    doc = html5lib.parse(html_bytes) 
    for img in doc.xpath("//img"): 
     d = agent.request(img.src) 
     d.addCallback(readBody) 
     image_requests.append(d) 
    return gatherResults(image_requests)

我省略了正確的URL分辨率（即，處理在IMG SRC相關鏈接），並沒有實際測試過這一點。它可能有許多錯誤，但希望清楚這個想法。

來源

2017-09-05 23:11:31

感謝time.clock，我只需要加載標籤，所以他們的地址不能反饋給Twisted代理，有關它的任何解決方法？我寧願不在我的代碼中實現一個新的庫，所以使用scrapy並不是我想要的，我尋找一種解決方案來單獨處理Twisted和Python。 – DeFoG

如果你不想使用scrapy，你需要做一些事情來解析html，找到img標籤，解釋它們的來源，併發出新的'Agent.request'調用。 Twisted中沒有任何內容會爲你做這個鏈接。 Twisted中也沒有真正的html解析器。在stdlib中有一個很老的，不太好的，但我真的推薦你使用'html5lib'，它實現了html5規範，並且這是目前解析html的唯一理智方式。 –

扭曲的HTTP客戶端下載整個頁面並測量下載時間

回答

相關問題