2016-03-07 172 views
-2

我做一個CA我要解析使用美麗的湯的頁面,我做的代碼使用Python和美麗的湯

r = urlopen(url) # download the page 
res1 = str(r.read()) # put the content into a variable 
soup = BeautifulSoup(res1,'html.parser') 
for link in soup.find_all('a'): 
    print(link.get('href')) 

但我必須打印多少個不同的頁面已經被抓取。

有人給我一個小費嗎?

非常感謝您

+0

這個代碼只抓取一個網頁 –

+0

你的評論說所有'#下載**網頁**' – danidee

+0

FWIW,你不需要像第2行那樣「放」內容到變量中。你可以稱之爲'soup = BeautifulSoup(res1.read(),'html.parser')' – n1c9

回答

0

正如在評論中提到@ cricket_007,當前的代碼「爬」(即檢索)只有一個頁面。

如果您需要打印你有多少鏈接找到的文檔中,你可以做

print(len(soup.find_all('a'))) 

注意soup.find_all('a')是對應標籤的列表,所以它的len給你一個鏈接數。

如果你真的需要抓取網站(例如,檢索頁面,從這個頁面獲取所有鏈接,按照每個鏈接,檢索它引用的頁面等等),我建議使用RoboBrowser而不是「純粹「BeautifulSoup。