0
我已經建立了一個小刮板,通過硒指向一個網站的頁面,然後應該讀取最後一頁上存在的HTML表格到數據框(或只是一個標題頁)。我被困在最後一點。我可以打開最後一頁,我卡住了。 刮到一個數據幀的HTML表
這是最終頁面的html輸出。表頭位於標籤中,觀察值位於標籤中。我對錶的代碼可能是可怕的,但在這裏它是:
df = pd.read_html(browser.get(table),header=0)
print(df.head(n=6))
表是url BTW
我得到的錯誤是「類型錯誤:無法讀取類型的對象NoneType'」。 我相信我錯過了一個步驟,如果任何人都會如此善意地指引我走向正確的方向,那將是非常感謝。
是你可以分享的網址嗎? –
不幸的是,沒有。我必須通過輸入用戶名和密碼進入頁面。 @BobHaffner – geoffrey007
好的。順便說一句,我沒有注意到這是第一次,但read_html不返回數據幀。它返回一個數據幀列表。所以df.head()將不起作用。不要認爲它很重要,因爲我猜測它在那之前的錯誤 –