獲取從GEO數據集搜索結果的URL鏈接使用分頁

我想從搜索結果頁中的每一篇文章的所有鏈接： https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer 獲取從GEO數據集搜索結果的URL鏈接使用分頁

但我有問題越來越下一頁的URL。從<div class="pagination">，它說：

<a name="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page" title="Next page of results" class="active page_link next" href="#" sid="3" page="2" accesskey="k" id="EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page">Next &gt;</a>

所以我用Python的urllib的檢索下一個頁面的網址，以便使用BeautifulSoup來獲取它的內容：

param2=urllib.urlencode({'sid':3,'page':2,'accesskey':'k','id':'EntrezSystem2.PEntrez.Gds.Gds_ResultsPanel.Entrez_Pager.Page'}) 

f2=urllib.urlopen('https://www.ncbi.nlm.nih.gov/gds/?term=lung+cancer',param2) 

soup2 = BeautifulSoup(f2.read(), 'html.parser')

現在的問題是，即使我將頁碼從1改爲10，我總是得到第1頁的內容。任何人都可以告訴我我做錯了什麼嗎？

來源

2017-10-05 paladin

您應該發送大量數據（通過發出POST請求）以獲取下一頁。在任何瀏覽器中使用開發者工具來檢查您需要發送哪些數據。

（並非所有數據都顯示）

來源

2017-10-05 10:13:49

對不起，我不太明白，你的意思是我必須嘗試多種組合猜測正確的網址是什麼？ – paladin

我的意思是說，你不需要構建任何'魔術'url來檢索你的數據，但是你似乎需要探索大量的數據來發送'param2'。在我看來，使用Selenium或類似的工具會很容易。 –

噢謝謝你，我會盡量和他們一起玩。 – paladin

獲取從GEO數據集搜索結果的URL鏈接使用分頁

回答

相關問題