我試圖從本網站訪問不同的魚家族的網址:http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Salmon通過BeautifulSoup解析存儲在URL中的數據?
我希望能夠運行打開某一網站的鏈接,然後能夠解析腳本存儲在頁面中的信息。我是相當新的網絡抓取,所以任何幫助將不勝感激。提前致謝!
這是我到目前爲止有:
import urllib2
import re
from bs4 import BeautifulSoup
import time
fish_url = 'http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Salmon'
page = urllib2.urlopen(fish_url)
html_doc = page.read()
soup = BeautifulSoup(html_doc)
page = urllib2.urlopen('http://www.fishbase.org/ComNames/CommonNameSearchList.php?CommonName=Salmon').read()
soup = BeautifulSoup(page)
soup.prettify()
for fish in soup.findAll('a', href=True):
print fish['href']
Python 3是否有任何開源Web Scraping框架? Scrapy是隻有2.7 .. – Erik 2013-03-22 15:42:31
@Erik檢查出[BeautifulSoup](crummy.com/software/BeautifulSoup/) – 2014-01-21 03:32:24
感謝Steinar,我最終完全移出Python ..現在利用CasperJS和PhantomJS。這是本地DOM樹遍歷真正加快了速度。 – Erik 2014-01-21 21:56:56