Q

如何讀取網頁內容不會出現在網頁的源文件

2012-10-16 85 views 1 likes

1

我想與蟒蛇如何讀取網頁內容不會出現在網頁的源文件

http://www.hm.com/us/subdepartment/LADIES?Nr=4294962278#Nr=4294962278&size=100

在網頁源代碼閱讀本網頁有24周產品的網址（ http://www.hm.com/us/product.*）

雖然在網頁本身（不是來源），我看到超過24個產品。

我怎樣才能讀取所有的產品，而不僅僅是第一個24？

它可能與css和url中的參數有關，但我對此不甚瞭解，如果有人能提供幫助，我將不勝感激。

謝謝。

2012-10-16 Liatz

A

回答

0

其餘的都是通過JavaScript加載的，這是客戶端，這就是爲什麼當你查看源代碼時，除了原來的24以外什麼也沒有，如果你禁用了javascript然後查看頁面，你將只能看到前幾個。

除非有一個用於Python的JS渲染器，否則你可能會運氣不好？

無論是或調用的JavaScript做同樣的頁面，而不是

2012-10-17 08:27:21 Owen

+0

謝謝你的回答。你是什麼意思：「調用相同的頁面，而不是JavaScript」 – Liatz

+0

在頁面中的JavaScript會請求一個頁面/ getMoreProducts /這將加載更多。因此，如果您的腳本不是轉到/ viewProducts，那麼您可能會轉到與javascript相同的網址。從快速瀏覽它實際上加載http://www.hm.com/us/subdepartment/LADIES?Nr=4294962278&size=100&xhr=true通知xhr =真的在網址上也許看看那裏？ – Owen

0

什麼，你可以使用就是Python硒webdriver的綁定，並得到webdriver的訪問該網頁的問題，這將給你訪問網頁編程。這是一個很好的到WebDriver with Python和Documentation。

2012-10-17 08:40:58 AlexC

相關問題