2013-01-24 65 views
0

傍晚的人(或早上取決於你在哪裏:))。用Python解析HTML 2.7

我期待解析其中包含類似於下面多段網頁: -

> <p><a name="Abercrombie"></a></p> <h3>Abercrombie Council</h3> <p>Mr 
> Billy Smith<br />The Managing Director<br />123 Jones Street, 
> London<br />T:02081234567<br /><a 
> href="mailto:[email protected]">Email</a></p> 

什麼我希望做的是從網頁捕獲源代碼,然後通過它解析提取上面的獨特信息,並將其放置在製表符分隔的文檔中,並在末尾添加一行 - 分割標題,辦公室名稱,個人姓名,工作角色,地址,電話號碼,電子郵件地址。

我一直在尋找使用BeautifulSoup,但我只是想知道是否有任何其他工具更適合?

回答

0

BeautifulSoup是一個體面的和流行的庫,但你也可以看看​​

1

我說BeautifulSoup將是你最好的和最簡單的選擇和解析HTML頁面或塊。您也可以嘗試scrapy甚至scraperwiki

用法示例爲BS

import BeautifulSoup 
import urllib2 

get = urllib2.urlopen('http://site.com').read() 
dom = BeautifulSoup.BeautifulSoup(get) 
data = dom.findAll('p', {'class' : 'address'}) # <p class='address'>....</p> 

for i in data: 
    print data 

更多的例子:http://www.crummy.com/software/BeautifulSoup/bs3/documentation.html

0

網頁抓取框架Scrapy是這種任務http://scrapy.org/的一個不錯的選擇,因爲不僅它可以解析並提取數據,還可以運行自動抓取作業。