0
我正在使用Beautifulsoup和Python。 我嘗試從包含哈希#的鏈接獲取元素。這是一個分頁鏈接,#之後的部分是頁碼。Beautifulsoup和哈希鏈接#
它不起作用,我明白這個問題是因爲urllib2無法處理這個問題,因爲#之後的URL部分是用於客戶端處理,並且永遠不會發送到服務器。
所以我使用Chrome的開發者工具的網絡選項卡檢查真實的URL,它給了我這樣的:
它看起來像服務器不喜歡這個網址,因爲在所有它給我一個空白頁面,只包含這個奇怪的結果:{"filtersBlock":"\n\n
所以我的問題是,有沒有辦法處理這種與BeautifulSoup的鏈接?
我找到了一種方法,使用BeautifulSoup來抓取DOM和Selenium來處理這些包含#的鏈接。只需將包含#的Selenium驅動程序傳遞給driver.get(「www.myserver.com/products#/page-2」)即可。 – Laurent