用Python刮掉網頁的關於頁面

-3

我在尋找一些內容從一些網站進行研究，我希望使用python和web scraping可能會加快我的過程。我之前使用過python和美麗的湯來做一個小項目，將xml從一種格式轉換爲另一種格式。用Python刮掉網頁的關於頁面

2012-07-29 weaveoftheride

我在這裏沒有看到問題。如果你只是在尋找一個刮板，[scrapy]（http://scrapy.org）是相當不錯的。 – Julian 2012-07-29 08:07:33

這裏的問題在哪裏？ – ThirdOne 2012-07-29 08:09:37

我不同意解決問題的唯一方法就是直接跳入並開始搞亂。特別是編碼，因爲它很容易迷失在技術上。你提出的那個網站存在缺陷，儘管我完全同意通過做法學習非常重要的是，研究和理論也很重要。必須有一個平衡。我不是要求你給我提供一個解決方案，只是給我一些指針，像下面回答的人。雖然有趣的鏈接。 – weaveoftheride 2012-07-29 10:00:38

根據您想要提取的數據結構有多重，可以使用多個工具。

如果您正在尋找抽取始終存儲在相同DOM結構中的數據，那麼Scrapy可以完成這項工作。
如果數據稀疏並存儲在不同的地方，可能是BeautfulSoup4或lxml可以幫到你。
如果被一些JS代碼生成的數據，看看Selenium

這裏有一些資源可能對您有用：

PYCON 2012教程關於網頁刮：http://pyvideo.org/video/609/web-scraping-reliably-and-efficiently-pull-data/
http://isbullsh.it/2012/04/Web-crawling-with-scrapy/（全面披露，我寫了）
http://www.packtpub.com/article/web-scraping-with-python
http://wwwsearch.sourceforge.net/mechanize/

來源

2012-07-29 08:13:59

謝謝，這些都非常有用 – weaveoftheride 2012-07-29 12:38:28

用Python刮掉網頁的關於頁面

回答

相關問題