Python：抓取網頁：需要幫助抓取特定鏈接或自動點擊按鈕

-1

我想從數據庫中下載幾個特定的DNA序列。（http://medicago-mutant.noble.org/mutant/FNBline1.php?id=NF-FN+8113）我可以輕鬆解析該頁面上的靜態鏈接，並關注它們，但是從下一頁我無法獲取我想要下載的文件的鏈接（http://gb.sc.noble.org/cgi-bin/gb2/gbrowse/medicago3_5/?name=CHR02FS001028027）它位於「Go」按鈕下。有沒有辦法獲得這些信息，或自動推送該按鈕？該按鈕會觸發一個javascript，打開一個新窗口並立即開始下載該文件。我一直在使用urllib2下載網站，但它似乎沒有任何意義來解析鏈接的源代碼。Python：抓取網頁：需要幫助抓取特定鏈接或自動點擊按鈕

來源

2014-01-15 szabadkai

你在用什麼刮？（Scrapy等？）這將有助於澄清您正在尋找哪些幫助工具，或者如果您願意切換庫。 – DreadPirateShawn

我使用urllib2模塊，但我絕對開放任何解決方案。 – szabadkai

另外，你知道「Go」按鈕是否打開一個新窗口，立即開始下載，觸發JavaScript事件等？任何有關您當前使用的其他信息（例如urllib2）以及您遇到的具體問題將是理想的問題，以便幫助任何可能提供幫助的人。就目前而言，這個問題有可能導致結果過於開放。 – DreadPirateShawn

首先，網站提供了一個鏈接，下載所有文件的tar球？

我對urllib2沒有經驗，但以我的經驗硒（http://docs.seleniumhq.org/）應該能夠很容易地做到這一點。只需打開Selenium IDE（一個瀏覽器插件）並記錄您想要下載的鏈接的ID，然後使用python將其自動化。硒網站提供了詳細的說明（http://docs.seleniumhq.org/docs/）。你也可以在SO上搜索，因爲這裏有很多答案。

還有很多其他的工具，如Watir，Sahi，WatiN等等。你可以在這裏找到一個不完整的列表：Web Automation Tool和這裏：http://en.wikipedia.org/wiki/List_of_web_testing_tools。

來源

2014-01-15 22:34:43 lindenrovio

Python：抓取網頁：需要幫助抓取特定鏈接或自動點擊按鈕

回答

相關問題