2014-01-15 77 views
-1

我想從數據庫中下載幾個特定的​​DNA序列。 (http://medicago-mutant.noble.org/mutant/FNBline1.php?id=NF-FN+8113) 我可以輕鬆解析該頁面上的靜態鏈接,並關注它們,但是從下一頁我無法獲取我想要下載的文件的鏈接(http://gb.sc.noble.org/cgi-bin/gb2/gbrowse/medicago3_5/?name=CHR02FS001028027)它位於「Go」按鈕下。有沒有辦法獲得這些信息,或自動推送該按鈕? 該按鈕會觸發一個javascript,打開一個新窗口並立即開始下載該文件。 我一直在使用urllib2下載網站,但它似乎沒有任何意義來解析鏈接的源代碼。Python:抓取網頁:需要幫助抓取特定鏈接或自動點擊按鈕

+0

你在用什麼刮? (Scrapy等?)這將有助於澄清您正在尋找哪些幫助工具,或者如果您願意切換庫。 – DreadPirateShawn

+0

我使用urllib2模塊,但我絕對開放任何解決方案。 – szabadkai

+0

另外,你知道「Go」按鈕是否打開一個新窗口,立即開始下載,觸發JavaScript事件等?任何有關您當前使用的其他信息(例如urllib2)以及您遇到的具體問題將是理想的問題,以便幫助任何可能提供幫助的人。就目前而言,這個問題有可能導致結果過於開放。 – DreadPirateShawn

回答

0

首先,網站提供了一個鏈接,下載所有文件的tar球?

我對urllib2沒有經驗,但以我的經驗硒(http://docs.seleniumhq.org/)應該能夠很容易地做到這一點。只需打開Selenium IDE(一個瀏覽器插件)並記錄您想要下載的鏈接的ID,然後使用python將其自動化。硒網站提供了詳細的說明(http://docs.seleniumhq.org/docs/)。你也可以在SO上搜索,因爲這裏有很多答案。

還有很多其他的工具,如Watir,Sahi,WatiN等等。你可以在這裏找到一個不完整的列表:Web Automation Tool和這裏:http://en.wikipedia.org/wiki/List_of_web_testing_tools