0
我想從搜索結果頁中的每一篇文章的所有鏈接: https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer獲取從GEO數據集搜索結果的URL鏈接使用分頁
但我有問題越來越下一頁的URL。從<div class="pagination">
,它說:
<a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" href="#" sid="3" page="2" accesskey="k" id="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page">Next ></a>
所以我用Python的urllib的檢索下一個頁面的網址,以便使用BeautifulSoup來獲取它的內容:
param2=urllib.urlencode({'sid':3,'page':2,'accesskey':'k','id':'EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page'})
f2=urllib.urlopen('https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer',param2)
soup2 = BeautifulSoup(f2.read(), 'html.parser')
現在的問題是,即使我將頁碼從1改爲10,我總是得到第1頁的內容。任何人都可以告訴我我做錯了什麼嗎?
對不起,我不太明白,你的意思是我必須嘗試多種組合猜測正確的網址是什麼? – paladin
我的意思是說,你不需要構建任何'魔術'url來檢索你的數據,但是你似乎需要探索大量的數據來發送'param2'。在我看來,使用Selenium或類似的工具會很容易。 –
噢謝謝你,我會盡量和他們一起玩。 – paladin