2010-11-24 70 views
4

我還是python的新手,所以我希望這個問題不是空話。關於蟒蛇刮包的指導

我谷歌的網頁抓取解決方案越多,越糊塗我成爲(無法看到一片森林,儘管調查許多樹木..)

我已經上了許多項目,包括閱讀文檔(包括但不限於) scrapy 機械化 spynner

,但我真的不能找出我應該嘗試使用的錘子..

有一個特定的頁面我試圖抓取網站(www .schooldigger.com) 它使用asp,並且有一些我需要能夠模擬的java腳本。

我知道這種問題不容易處理,所以我很樂意提供任何指導。

除了可用的選項的一些一般性討論(和不同項目之間的關係,如果可能的話),我有幾個具體的問題

  1. 當使用scrapy,是有什麼辦法避免定義'項目'被解析,只是下載第一個幾百頁左右?我實際上並不想下載整個網站,但是我希望能夠在開發刮板的同時查看正在下載哪些頁面。

  2. 機械化,ASP和JavaScript,請看到一個問題,我張貼,但還沒有看到任何的答案, https://stackoverflow.com/questions/4249513/emulating-js-in-mechanize

  3. 爲什麼不建立某種效用的(無論是TurboGears的應用程序或瀏覽器插件中),其允許用戶選擇要關注的鏈接和項目以圖形方式解析?我所建議的是某種gui圍繞解析API。我不知道我是否具備創建這樣一個項目的技術知識,但是我不明白爲什麼這是不可能的,事實上,根據我對python的瞭解,這似乎是相當可行的。也許關於這類項目會遇到什麼問題的一些反饋意見?

  4. 最重要的是,所有的網絡爬蟲建立「具體網站」?在我看來,我有點重塑我的代碼輪...(但那可能是因爲我不是很擅長編程)

  5. 任何人都有任何功能齊全的刮刀的例子嗎?文檔中有很多例子(這些例子都在研究中),但它們似乎都集中在簡單性上,只是爲了說明軟件包的使用情況,也許我會從更詳細/複雜的例子中受益。

感謝您的想法。

回答

2

對於整個瀏覽器的交互你最好看一下使用Selenium-RC

這有一個Python驅動程序,你可以編寫腳本在瀏覽器中的「測試」只是互聯網上的任何網站