2011-06-02 41 views
0

嘿傢伙。我已被分配到一個包含數碼相機評論的網頁。 (例如,http://www.bhphotovideo.com/c/product/732047-REG/Canon_4460B003_EOS_60D_DSLR_Camera.html#costumerReview)。儘管JavaScript渲染審閱數據本身的難度很大,但Selenium和WebDriver在抓取數據方面非常有幫助。最好的方式來刮WebDriver

我最初的實現只是爲了收集頁面上的所有數據,然後使用Python的zip函數將其鏈接到相應的評論。但是,當人們無法填寫評論的某些部分時,我的xpath查詢不會填寫人們可能期望的Nones,從而無法正確使用zip功能。

我的下一個想法是一次解析每個單獨的評論 - 然而WebDriver似乎沒有好的方法來訪問子節點,並且使用來自評論根目錄的xpath查詢仍然會從整個頁面抓取數據,而不僅僅是隔離樹中的代碼。

雖然我可以想出一些黑客解決方案,但沒有一個看起來真的很合理,感覺應該有一種自然的方式來做到這一點,我錯過了。如果有人在這方面有任何建議,將不勝感激。

+0

這個問題似乎是題外話,因爲堆棧溢出是關於與明確的答案編碼的具體問題。有關高層設計概念的討論更適合程序員.stackexchange.com。請閱讀本文以獲取更多信息:http://meta.stackexchange.com/questions/82988/choosing-between-stack-overflow-and-programmers-stack-exchange/82990#82990 – 2014-01-29 00:19:18

回答

0

用Selenium得到那麼網頁源與lxml解析它,那麼你可以得到每個人的審查和處理個案的基礎上的情況下,缺少的領域。

1

嘗試Scrapy

+0

Scrapy不處理javascript – cerberos 2011-08-16 04:33:33