Python調用多個URL並從中提取數據

我試圖編寫一個腳本來調用網頁（http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode =樹& ID = 7742 & LVL = 3 &林= F &保= 1個& srchmode = 1個&解鎖），掃描它，然後每個嵌套分類羣組內拉出目，科，屬，種和。然而，我只想要脊椎動物（整個網站的一小部分），但與各種脊椎動物類羣相關的URL沒有任何可識別的模式（即連續的）。有沒有辦法做到這一點合理？試圖制定不同的方式來實現這一目標，我一直有很多問題。Python調用多個URL並從中提取數據

來源

2011-07-29 computernewbie

這就是所謂的**網刮**，並且有很多關於此的問答（僅有500人爲Python標籤）。在Python中，_twill_是位於_mechanize_之上的可用性層（用於自動化）;和_BeautifulSoup_用於實際的抓取。 – smci

[twill]（http://twill.idyll.org/commands.html）明確指出以下鏈接比普通機械化更容易，特別是它的[follow]（http://twill.idyll.org/commands.html）命令有效通過鏈接標題（而不是URL）。如果這不能解決您的問題，請向我們展示一些這些鏈接的示例html片段？ – smci

這不是很清楚（至少對我來說）你到底想做什麼，但是對於我所理解的，你需要創建一些爬行器來尋找頁面中的鏈接，導航網站和分類？

如果是這樣，去爲mechanize，允許你來模擬一個網頁瀏覽器，以及沿途的站點導航，容易提取和以下鏈接，提交表單，等等，等等

來源

2011-07-29 00:42:25 redShadow

Python調用多個URL並從中提取數據

回答

相關問題