from urllib import request
import urllib
from bs4 import BeautifulSoup as bs
page = request.urlopen("http://someurl.ulr").read()
soup = (page,"lxml")
現在這個過程是非常緩慢的,因爲它使一個請求解析數據, 經過指定的步驟,然後我們回到發出請求。網頁抓取同時要求
- for example
for links in findAll('a'):
print (links.href)
然後我們又回到提出請求,因爲我們想要刮另一個URL,如何加速這個過程?
我應該將URL的整個源代碼存儲在一個文件中,然後執行必要的操作(解析,查找我們需要的數據)---?
我有這個想法,因爲從一個DoS(拒絕服務)腳本 使用導入襪子和線程進行大量的請求。
注意:這只是一個想法, 有沒有一種更有效的方法呢?
是的,使用['scrapy'](https://scrapy.org) – eLRuLL
不,我愛我的湯,我會找到一種方式不會讓我失望。 –
你可以使用'scrapy'的湯。 Scrapy只向表中添加異步請求。 – eLRuLL