Python Web刮（美麗的湯，硒和PhantomJS）：只刮整個頁面的一部分

您好，我嘗試從網站上刮取數據進行建模（fantsylabs dotcom）有困難。我只是一個黑客，所以原諒我對科學幻想術語的無知。我想要完成的是...Python Web刮（美麗的湯，硒和PhantomJS）：只刮整個頁面的一部分

使用硒登錄到網站，並導航到頁面的數據。

## Initialize and load the web page 
url = "website url" 
driver = webdriver.Firefox() 
driver.get(url) 
time.sleep(3) 

## Fill out forms and login to site 
username = driver.find_element_by_name('input') 
password = driver.find_element_by_name('password') 
username.send_keys('username') 
password.send_keys('password') 
login_attempt = driver.find_element_by_class_name("pull-right") 
login_attempt.click() 

## Find and open the page with the data that I wish to scrape 
link = driver.find_element_by_partial_link_text('Player Models') 
link.click() 
time.sleep(10) 

##UPDATED CODE TO TRY AND SCROLL DOWN TO LOAD ALL THE DYNAMIC DATA 
scroll = driver.find_element_by_class_name("ag-body-viewport") 
driver.execute_script("arguments[0].scrollIntoView();", scroll) 

## Try to allow time for the full page to load the lazy way then pass to BeautifulSoup 
time.sleep(10) 
html2 = driver.page_source 

soup = BeautifulSoup(html2, "lxml", from_encoding="utf-8") 
div = soup.find_all('div', {'class':'ag-pinned-cols-container'}) 
## continue to scrape what I want

這個過程的工作，它登錄時，導航到正確的頁面，但一旦頁面完成動態加載（30秒），把它傳遞給beautifulsoup。我在表格中看到大約300多個實例，我想要刮擦....但是，bs4刮板只能分析大約30個300的實例。從我自己的研究看來，這可能是數據動態加載的問題JavaScript，只有什麼推送到HTML正在解析bs4？（Using Python requests.get to parse html code that does not load at once）

這可能是任何人都很難提供意見，以重現我的例子，而無需創建網站上的個人資料，但會使用phantomJS初始化瀏覽器全部是需要以捕獲所有以「搶」的所有實例所需的數據？作爲香港專業教育學院從未有過處理動態頁/刮的JavaScript如果這是我遇到

driver = webdriver.PhantomJS() ##instead of webdriver.Firefox()

任何想法或經驗，將不勝感激。

修訂Alecs響應後：

下面是目標數據的屏幕截圖（藍色高亮顯示）。您可以看到圖像右側的滾動條，並將其嵌入到頁面中。我還提供了此容器中頁面源代碼的視圖。

我修改了我提供試圖向下滾動至底部，並完全加載頁面的原代碼，但它不能執行此操作。當我將驅動程序設置爲Firefox（）時，我可以看到頁面通過外滾動條向下移動，但不在目標容器內。我希望這是有道理的。

再次感謝您的任何建議/指導。

來源

2016-01-13 boothtp

掌握成爲一名黑客的藝術是什麼編程是怎麼一回事。 –

這不容易回答，因爲我們無法重現問題。

的一個問題是，lxml是not handling this specific HTML particularly well，你可能需要嘗試changing the parser：

soup = BeautifulSoup(html2, "html.parser") 
soup = BeautifulSoup(html2, "html5lib")

此外，有可能不是第一名BeautifulSoup需要。您可以通過很多不同的方式找到含有selenium的元素。例如，在這種情況下：

for div in driver.find_elements_by_css_selector(".ag-pinned-cols-container'"): 
    # do smth with 'div'

還可以，當你滾動頁面底部的數據是動態加載。在這種情況下，您可能需要將頁面滾動到底部，直到看到所需數量的數據或滾動上沒有更多新數據加載。以下是相關的線程與樣品溶液：

來源

2016-01-14 01:35:32 alecxe

感謝您輸入alec，您已經將滾動頁面指向正確的方向。我以前沒有遇到過這個問題。鏈接有幫助，但我似乎仍然無法做到。看起來目標數據位於網頁內的單獨容器中，並具有其自己的單獨滾動條。我使用屏幕快照編輯了我的第一個問題，並且還需要更新一些代碼。 – boothtp

@boothtp好，我認爲[這個答案]（http://stackoverflow.com/a/30942319/771848）應該是最相關的意思，這個想法將滾動到表中最後一行的視圖來觸發動態負載。你只需要修復定位器。這仍然是一個猜測。希望能幫助到你。 – alecxe

再次感謝。所以我今天能夠在幾個小時內處理你的建議。我仍然無法定位上圖中的滾動條，所以其他任何指導都會有所幫助......我無法檢查它...我是如此定位容器？此外，我發現當我手動向下滾動，數據動態更新，但它一次只顯示約40個實例...例如，如果我加載頁面，我看到實例1-40 ...如果向下滾動進一步看不到，說例20-60和1-20從源代碼中消失......在這種情況下，如何捕獲數據？ – boothtp

Python Web刮（美麗的湯，硒和PhantomJS）：只刮整個頁面的一部分

回答

相關問題