2017-02-09 110 views
0

我正在使用Beautifulsoup和Python。 我嘗試從包含哈希#的鏈接獲取元素。這是一個分頁鏈接,#之後的部分是頁碼。Beautifulsoup和哈希鏈接#

它不起作用,我明白這個問題是因爲urllib2無法處理這個問題,因爲#之後的URL部分是用於客戶端處理,並且永遠不會發送到服務器。

所以我使用Chrome的開發者工具的網絡選項卡檢查真實的URL,它給了我這樣的:

http://www.myserver.com/modules/blocklayered/blocklayered-ajax.php?_=1486617675431&id_category_layered=24&layered_weight_slider=0_10&layered_price_slider=21_2991&orderby=position&orderway=desc&n=20&p=3

它看起來像服務器不喜歡這個網址,因爲在所有它給我一個空白頁面,只包含這個奇怪的結果:{"filtersBlock":"\n\n

所以我的問題是,有沒有辦法處理這種與BeautifulSoup的鏈接?

+0

我找到了一種方法,使用BeautifulSoup來抓取DOM和Selenium來處理這些包含#的鏈接。只需將包含#的Selenium驅動程序傳遞給driver.get(「www.myserver.com/products#/page-2」)即可。 – Laurent

回答

0

我找到了一種方法,使用BeautifulSoup來抓取DOM和Selenium來處理這些包含#的鏈接。只需將包含#的鏈接傳遞給Selenium驅動程序driver.get("www.myserver.com/products#/page-2")即可。