我在網絡上有一個html文件,它幾乎每分鐘更新一次表格中的新行。在任何時候,該文件都包含近15000行,我想創建一個包含表中所有數據的MySQL表,然後再從可用數據中計算出更多。從數千行的HTML表格中更新MySQL表格
該HTML表格包含,比如最近3天的行。我想將它們全部存儲在我的mysql表中,並且每隔一小時左右更新一次表(可以通過cron來完成)?
對於連接到DB,我使用的是MySQLdb
,它工作正常。但是,我不確定最佳做法是什麼。我可以使用bs4
刮取數據,使用MySQLdb
連接到表格。但我應該如何更新表格?我應該使用什麼邏輯來刮取使用最少資源的頁面?
我沒有取得任何結果,只是刮和寫。
任何指針,請?
你有寫過任何代碼嗎?你的模式的例子也會有幫助! – jsalonen
我所有的代碼是,刮取HTML表格行,並一次寫入表格。但是,我真正擔心的是更新表格和性能問題。 –
製作一個輸出CSV的刮板。然後使用LOAD DATA INFILE或類似的方法將CSV加載到mysql中。另外,如果您在提交使用數據之前需要進一步過濾或監視事情,那麼使用單獨的表進行上傳,然後執行INSERT/SELECT進行復制可能是明智的。 – Paul