我剛開始學習使用Python的網頁抓取。但是,我已經遇到了一些問題。使用python進行Web Scraping數據?
我的目標是網絡廢鋼不同種類的金槍魚從fishbase.org(http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=salmon)名稱
的問題:我無法提取所有的物種名稱。
這是我到目前爲止有:
import urllib2
from bs4 import BeautifulSoup
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Tuna'
page = urllib2.urlopen(fish_url)
soup = BeautifulSoup(html_doc)
spans = soup.find_all(
從這裏,我不知道我怎麼會去提取物種名稱。我想使用正則表達式(即soup.find_all("a", text=re.compile("\d+\s+\d+"))
捕捉到標籤內的文本...
任何投入將不勝感激!
事實上'findAll'已更名爲'find_all'到符合pep8標準。更多信息[這裏](http://www.crummy.com/software/BeautifulSoup/bs4/doc/#method-names)。 – jcollado 2012-03-05 09:13:48