最好的方式來刮WebDriver

嘿傢伙。我已被分配到一個包含數碼相機評論的網頁。（例如，http://www.bhphotovideo.com/c/product/732047-REG/Canon_4460B003_EOS_60D_DSLR_Camera.html#costumerReview）。儘管JavaScript渲染審閱數據本身的難度很大，但Selenium和WebDriver在抓取數據方面非常有幫助。最好的方式來刮WebDriver

我最初的實現只是爲了收集頁面上的所有數據，然後使用Python的zip函數將其鏈接到相應的評論。但是，當人們無法填寫評論的某些部分時，我的xpath查詢不會填寫人們可能期望的Nones，從而無法正確使用zip功能。

我的下一個想法是一次解析每個單獨的評論 - 然而WebDriver似乎沒有好的方法來訪問子節點，並且使用來自評論根目錄的xpath查詢仍然會從整個頁面抓取數據，而不僅僅是隔離樹中的代碼。

雖然我可以想出一些黑客解決方案，但沒有一個看起來真的很合理，感覺應該有一種自然的方式來做到這一點，我錯過了。如果有人在這方面有任何建議，將不勝感激。

來源

2011-06-02 Ceasar Bautista

這個問題似乎是題外話，因爲堆棧溢出是關於與明確的答案編碼的具體問題。有關高層設計概念的討論更適合程序員.stackexchange.com。請閱讀本文以獲取更多信息：http://meta.stackexchange.com/questions/82988/choosing-between-stack-overflow-and-programmers-stack-exchange/82990#82990 – 2014-01-29 00:19:18