我想抓取一個網頁有多個頁面,當頁面號碼被點擊時,它是動態加載的。如何屏幕抓取?如何抓取頁面導航涉及動態加載的網站
即作爲URL不存在爲href或如何爬行到其他頁面?
如果有人幫助我,這將是非常有益的。
PS:當點擊不同的頁面時,URL保持不變。
我想抓取一個網頁有多個頁面,當頁面號碼被點擊時,它是動態加載的。如何屏幕抓取?如何抓取頁面導航涉及動態加載的網站
即作爲URL不存在爲href或如何爬行到其他頁面?
如果有人幫助我,這將是非常有益的。
PS:當點擊不同的頁面時,URL保持不變。
您可以在JavaScript代碼而不是HTML中查找想要的數據。這通常是一種痛苦,但你可以用正則表達式來做有趣的事情。
或者,像splinter這樣的瀏覽器測試庫的某些工作方式是在抓取之前將頁面加載到實際的瀏覽器中,如firefox或chrome。如果您在安裝了瀏覽器的計算機上運行此功能,則其中一項可行。
如果你使用谷歌瀏覽器,您可以檢查哪些是動態調用在這樣基礎上,開發者工具
network->headers
,你可以識別其是否爲GET
或POST
請求的URL。
如果是GET
請求,您可以直接從url找到參數。
如果是POST
請求,您可以從form data
中找到參數network->headers
的開發者工具。
由於這個帖子已被標記與Python和網絡爬蟲,美麗的湯必須提到:http://www.crummy.com/software/BeautifulSoup/
文檔瀏覽:http://www.crummy.com/software/BeautifulSoup/bs3/download/2.x/documentation.html
你也應該考慮Ghost.py,因爲它允許你運行任意的javascript命令,填寫表單並快速抓取快照。
沒有獲取參數使用url保持不變。我假設已經使用了Ajax技術 – Dhatri
如果可能,你可以粘貼你試圖抓取的url嗎? – shanks
:其www.samsung.com/in/consumer/mobile-phone/mobile-phone/smartphont – Dhatri