刮到一個數據幀的HTML表

我已經建立了一個小刮板，通過硒指向一個網站的頁面，然後應該讀取最後一頁上存在的HTML表格到數據框（或只是一個標題頁）。我被困在最後一點。我可以打開最後一頁，我卡住了。刮到一個數據幀的HTML表

這是最終頁面的html輸出。表頭位於標籤中，觀察值位於標籤中。我對錶的代碼可能是可怕的，但在這裏它是：

df = pd.read_html(browser.get(table),header=0) 
    print(df.head(n=6))

表是url BTW

我得到的錯誤是「類型錯誤：無法讀取類型的對象NoneType'」。我相信我錯過了一個步驟，如果任何人都會如此善意地指引我走向正確的方向，那將是非常感謝。

是你可以分享的網址嗎？ –

不幸的是，沒有。我必須通過輸入用戶名和密碼進入頁面。 @BobHaffner – geoffrey007

好的。順便說一句，我沒有注意到這是第一次，但read_html不返回數據幀。它返回一個數據幀列表。所以df.head（）將不起作用。不要認爲它很重要，因爲我猜測它在那之前的錯誤 –

所以我想通了。我無法在pd.read_html（）調用中嵌套get（）調用。

browser.get(table) 
    source = browser.page_source 
    content = pd.read_html(source) 
    df = pd.DataFrame(content)

一旦我打開瀏覽器，我想表的頁面，我所做的只是調用瀏覽器（這是真正的chromedriver），並獲得page_source。然後我能夠讀取html並將其轉換爲數據框。

2017-07-18 20:57:09 geoffrey007

回答