2012-07-29 78 views
-3

我在尋找一些內容從一些網站進行研究,我希望使用python和web scraping可能會加快我的過程。我之前使用過python和美麗的湯來做一個小項目,將xml從一種格式轉換爲另一種格式。用Python刮掉網頁的關於頁面

+2

我在這裏沒有看到問題。如果你只是在尋找一個刮板,[scrapy](http://scrapy.org)是相當不錯的。 – Julian 2012-07-29 08:07:33

+2

這裏的問題在哪裏? – ThirdOne 2012-07-29 08:09:37

+0

我不同意解決問題的唯一方法就是直接跳入並開始搞亂。特別是編碼,因爲它很容易迷失在技術上。你提出的那個網站存在缺陷,儘管我完全同意通過做法學習非常重要的是,研究和理論也很重要。必須有一個平衡。我不是要求你給我提供一個解決方案,只是給我一些指針,像下面回答的人。雖然有趣的鏈接。 – weaveoftheride 2012-07-29 10:00:38

回答

3

根據您想要提取的數據結構有多重,可以使用多個工具。

  • 如果您正在尋找抽取始終存儲在相同DOM結構中的數據,那麼Scrapy可以完成這項工作。
  • 如果數據稀疏並存儲在不同的地方,可能是BeautfulSoup4lxml可以幫到你。
  • 如果被一些JS代碼生成的數據,看看Selenium

這裏有一些資源可能對您有用:

+0

謝謝,這些都非常有用 – weaveoftheride 2012-07-29 12:38:28