2017-07-18 47 views
0

我已經建立了一個小刮板,通過硒指向一個網站的頁面,然後應該讀取最後一頁上存在的HTML表格到數據框(或只是一個標題頁)。我被困在最後一點。我可以打開最後一頁,我卡住了。 html of final page刮到一個數據幀的HTML表

這是最終頁面的html輸出。表頭位於標籤中,觀察值位於標籤中。我對錶的代碼可能是可怕的,但在這裏它是:

df = pd.read_html(browser.get(table),header=0) 
    print(df.head(n=6)) 

表是url BTW

我得到的錯誤是「類型錯誤:無法讀取類型的對象NoneType'」。 我相信我錯過了一個步驟,如果任何人都會如此善意地指引我走向正確的方向,那將是非常感謝。

+0

是你可以分享的網址嗎? –

+0

不幸的是,沒有。我必須通過輸入用戶名和密碼進入頁面。 @BobHaffner – geoffrey007

+0

好的。順便說一句,我沒有注意到這是第一次,但read_html不返回數據幀。它返回一個數據幀列表。所以df.head()將不起作用。不要認爲它很重要,因爲我猜測它在那之前的錯誤 –

回答

0

所以我想通了。我無法在pd.read_html()調用中嵌套get()調用。

browser.get(table) 
    source = browser.page_source 
    content = pd.read_html(source) 
    df = pd.DataFrame(content) 

一旦我打開瀏覽器,我想表的頁面,我所做的只是調用瀏覽器(這是真正的chromedriver),並獲得page_source。然後我能夠讀取html並將其轉換爲數據框。

相關問題