0
我試圖編寫一個腳本來調用網頁(http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode =樹& ID = 7742 & LVL = 3 &林= F &保= 1個& srchmode = 1個&解鎖),掃描它,然後每個嵌套分類羣組內拉出目,科,屬,種和。然而,我只想要脊椎動物(整個網站的一小部分),但與各種脊椎動物類羣相關的URL沒有任何可識別的模式(即連續的)。有沒有辦法做到這一點合理?試圖制定不同的方式來實現這一目標,我一直有很多問題。Python調用多個URL並從中提取數據
這就是所謂的**網刮**,並且有很多關於此的問答(僅有500人爲Python標籤)。在Python中,_twill_是位於_mechanize_之上的可用性層(用於自動化);和_BeautifulSoup_用於實際的抓取。 – smci
[twill](http://twill.idyll.org/commands.html)明確指出以下鏈接比普通機械化更容易,特別是它的[follow](http://twill.idyll.org/commands.html)命令有效通過鏈接標題(而不是URL)。如果這不能解決您的問題,請向我們展示一些這些鏈接的示例html片段? – smci