用Python解析HTML 2.7

2013-01-24 65 views 0 likes

傍晚的人（或早上取決於你在哪裏:)）。用Python解析HTML 2.7

我期待解析其中包含類似於下面多段網頁： -

> <p><a name="Abercrombie"></a></p> <h3>Abercrombie Council</h3> <p>Mr 
> Billy Smith<br />The Managing Director<br />123 Jones Street, 
> London<br />T:02081234567<br /><a 
> href="mailto:[email protected]">Email</a></p>

什麼我希望做的是從網頁捕獲源代碼，然後通過它解析提取上面的獨特信息，並將其放置在製表符分隔的文檔中，並在末尾添加一行 - 分割標題，辦公室名稱，個人姓名，工作角色，地址，電話號碼，電子郵件地址。

我一直在尋找使用BeautifulSoup，但我只是想知道是否有任何其他工具更適合？

來源

2013-01-24 thefragileomen

回答

BeautifulSoup是一個體面的和流行的庫，但你也可以看看

來源

2013-01-24 21:10:16 thikonom

我說BeautifulSoup將是你最好的和最簡單的選擇和解析HTML頁面或塊。您也可以嘗試scrapy甚至scraperwiki

用法示例爲BS

import BeautifulSoup 
import urllib2 

get = urllib2.urlopen('http://site.com').read() 
dom = BeautifulSoup.BeautifulSoup(get) 
data = dom.findAll('p', {'class' : 'address'}) # <p class='address'>....</p> 

for i in data: 
    print data

來源

2013-01-24 21:15:41 Kartik

網頁抓取框架Scrapy是這種任務http://scrapy.org/的一個不錯的選擇，因爲不僅它可以解析並提取數據，還可以運行自動抓取作業。

來源

2013-01-24 22:27:17

相關問題

1. 用Python解析XML 2.7
2. 使用Python解析msg/eml文件2.7
3. 使用Python解析Apache日誌2.7
4. 如何使用Python解析XML值2.7
5. 使用Python 2.7解析HTML - HTMLParser，SGMLParser或Beautiful Soup？
6. 解碼HTML字符串使用python 2.7
7. 使用Python解析HTML
8. Python html解析
9. python html解析
10. 用python和bs解析HTML

11. Python：用BeautifulSoup解析HTML
12. 用Python解析html標記
13. 用Python解析HTML文件
14. 使用lxml解析HTML（python）
15. 使用Python解析HTML
16. Python 2.7方法解析順序覆蓋
17. Python 2.7，解析時意外的EOF
18. 解析CSS的網址（）與Python值2.7
19. Python 2.7版解析正則表達式
20. Python：解析wordpress HTML
21. Python的HTML解析
22. 解析HTML與Python
23. html解析器python
24. 用正則表達式解析Python 2.7中的html - 真的不明白
25. Python - 整理HTML解析
26. 的Python HTML解析框架
27. 我想在python解析HTML
28. Python - Error解析HTML w/BeautifulSoup
29. 的Python的urllib，HTML解析
30. BeautifulSoup python解析html文件