2013-08-27 77 views
0

我刮的網站的URL結構這樣改變URL:刮多個網頁與Python的

www.website.com/data?page=1

我想編寫一個程序,使用迭代從所有頁面中刪除數據,這些頁面從1開始,以各種數字結束,具體取決於我在表單上選擇的數據字段。

我想我可以切斷URL並使用迭代器來增加該頁面,但我無法連接一個str和int對象。有什麼建議?

回答

0

我想你想問的是「連接一個str和int對象」。

astr = "ABCD" 
aint = 1234 
resstr = astr + str(aint) 
3

你可以使用一個for循環,增加頁碼

for i in xrange(100): 
    html = urllib2.urlopen('http://website.com/page=%s'%str(i)).read() 
    soup = BeautifulSoup(html) 
    #Parsing 

然後使用%s爲int添加到字符串

使用迭代環路是上使用str()函數 將其添加到字符串中,然後將其添加到url

0

使用st將int更改爲str r的構造函數如下:

str(1)