2017-04-09 38 views
0

我想解析包含有關火車票和價格(源下面)的信息的網站的HTML,但是我有一個問題找回所有的HTML當我使用urllib來請求html時,從網站上下載。HTML解析與Python(HTML與完整的網站)

我需要的是每張門票的價格,當我使用urllib請求html時,似乎並沒有出現。在做了一些調查工作後,我確定如果我用chrome保存網頁並選擇「僅限HTML」,我不會收到價格,但是如果我選擇「完成網頁」,我會這樣做。無論如何,當我下載「完整的網頁」並在python中使用它時,查看我得到的HTML。或者有沒有辦法自動完成整個網頁的下載,並使用下載的文件來解析python。由於該網站是由JS渲染

感謝, 喬治

https://www.raileurope.com/en/us/point_to_point/ptp_results.htm?execution=e3s1&resultId=147840746&cobrand=public&saleCountry=us&resultId=147840746&cobrand=public&saleCountry=us&itemId=-1&fn=fsRequest&cobrand=public&c=USD&roundtrip=0&isAtocRequest=0&georequest=1&lang=en&route-type=0&from0=paris&to0=amsterdam&deptDate0=06%2F07%2F2017&time0=8&pass-question-radio=1&nCountries=&selCountry1=&selCountry2=&selCountry3=&selCountry4=&selCountry5=&familyId=&p=0&additionalTraveler0=adult&additionalTravelerAge0=&paxIds=&nA=1&nY=0&nC=0&nS=0

+0

所需的標籤是使用JavaScript/jQuery動態生成的嗎? – arsho

+0

使用像'requests'這樣的模塊來抓取所需的網站。這將模仿使用瀏覽器查看它的用戶。從那裏,你可以使用'beautifulsoup'或任何其他解析器來獲取所需的信息。 – Dashadower

回答

0

看看selenium
,你將不得不使用webdriver的模擬「點擊」。
您需要一個履帶式的代替一個簡單的刮板