0
我想抓取一個ASP.NET網站,但網址都是一樣的如何使用Python抓取特定網頁?如何使用Python抓取特定的ASP.NET頁面?
這裏是我需要的網站抓取: http://www.fveconstruction.ch/index.htm
(我用beautifulsoup,urllib而蟒蛇3)
我應該得到什麼樣的信息到頁面與其他區分?
我想抓取一個ASP.NET網站,但網址都是一樣的如何使用Python抓取特定網頁?如何使用Python抓取特定的ASP.NET頁面?
這裏是我需要的網站抓取: http://www.fveconstruction.ch/index.htm
(我用beautifulsoup,urllib而蟒蛇3)
我應該得到什麼樣的信息到頁面與其他區分?
如果目標網站只是一個單一頁面的應用程序,它將無法被抓取。作爲一種解決方法,您可以在手動瀏覽網站時查看實際發送的請求(GET,POST等),並要求抓取工具使用這些請求。或者,教你的爬蟲至少在目標網站上執行javascript。
這是需要更改爲易於抓取的網站,它們需要爲需要建立索引的每個頁面提供合理的非AJAX版本,或者鏈接到需要建立索引的頁面。或者使用類似angularJs中pushState所做的事情。