2012-10-16 48 views
1

我想與蟒蛇如何讀取網頁內容不會出現在網頁的源文件

http://www.hm.com/us/subdepartment/LADIES?Nr=4294962278#Nr=4294962278&size=100

在網頁源代碼閱讀本網頁有24周產品的網址( http://www.hm.com/us/product.*)

雖然在網頁本身(不是來源),我看到超過24個產品。

我怎樣才能讀取所有的產品,而不僅僅是第一個24?

它可能與css和url中的參數有關,但我對此不甚瞭解,如果有人能提供幫助,我將不勝感激。

謝謝。

回答

0

其餘的都是通過JavaScript加載的,這是客戶端,這就是爲什麼當你查看源代碼時,除了原來的24以外什麼也沒有,如果你禁用了javascript然後查看頁面,你將只能看到前幾個。

除非有一個用於Python的JS渲染器,否則你可能會運氣不好?

無論是或調用的JavaScript做同樣的頁面,而不是

+0

謝謝你的回答。你是什​​麼意思:「調用相同的頁面,而不是JavaScript」 – Liatz

+0

在頁面中的JavaScript會請求一個頁面/ getMoreProducts /這將加載更多。因此,如果您的腳本不是轉到/ viewProducts,那麼您可能會轉到與javascript相同的網址。從快速瀏覽它實際上加載http://www.hm.com/us/subdepartment/LADIES?Nr=4294962278&size=100&xhr=true通知xhr =真的在網址上也許看看那裏? – Owen

0

什麼,你可以使用就是Python硒webdriver的綁定,並得到webdriver的訪問該網頁的問題,這將給你訪問網頁編程。這是一個很好的到WebDriver with PythonDocumentation