我刮的網站的URL結構這樣改變URL:刮多個網頁與Python的
www.website.com/data?page=1
我想編寫一個程序,使用迭代從所有頁面中刪除數據,這些頁面從1開始,以各種數字結束,具體取決於我在表單上選擇的數據字段。
我想我可以切斷URL並使用迭代器來增加該頁面,但我無法連接一個str和int對象。有什麼建議?
我刮的網站的URL結構這樣改變URL:刮多個網頁與Python的
www.website.com/data?page=1
我想編寫一個程序,使用迭代從所有頁面中刪除數據,這些頁面從1開始,以各種數字結束,具體取決於我在表單上選擇的數據字段。
我想我可以切斷URL並使用迭代器來增加該頁面,但我無法連接一個str和int對象。有什麼建議?
我想你想問的是「連接一個str和int對象」。
astr = "ABCD"
aint = 1234
resstr = astr + str(aint)
你可以使用一個for循環,增加頁碼
for i in xrange(100):
html = urllib2.urlopen('http://website.com/page=%s'%str(i)).read()
soup = BeautifulSoup(html)
#Parsing
然後使用%s
爲int添加到字符串
使用迭代環路是上使用str()
函數 將其添加到字符串中,然後將其添加到url
使用st將int更改爲str r的構造函數如下:
str(1)