2011-07-29 31 views
0

我試圖編寫一個腳本來調用網頁(http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode =樹& ID = 7742 & LVL = 3 &林= F &保= 1個& srchmode = 1個&解鎖),掃描它,然後每個嵌套分類羣組內拉出目,科,屬,種和。然而,我只想要脊椎動物(整個網站的一小部分),但與各種脊椎動物類羣相關的URL沒有任何可識別的模式(即連續的)。有沒有辦法做到這一點合理?試圖制定不同的方式來實現這一目標,我一直有很多問題。Python調用多個URL並從中提取數據

+0

這就是所謂的**網刮**,並且有很多關於此的問答(僅有500人爲Python標籤)。在Python中,_twill_是位於_mechanize_之上的可用性層(用於自動化);和_BeautifulSoup_用於實際的抓取。 – smci

+0

[twill](http://twill.idyll.org/commands.html)明確指出以下鏈接比普通機械化更容易,特別是它的[follow](http://twill.idyll.org/commands.html)命令有效通過鏈接標題(而不是URL)。如果這不能解決您的問題,請向我們展示一些這些鏈接的示例html片段? – smci

回答

0

這不是很清楚(至少對我來說)你到底想做什麼,但是對於我所理解的,你需要創建一些爬行器來尋找頁面中的鏈接,導航網站和分類?

如果是這樣,去爲mechanize,允許你來模擬一個網頁瀏覽器,以及沿途的站點導航,容易提取和以下鏈接,提交表單,等等,等等