我有一個大的(超過600,000條記錄)數據庫作爲Django應用程序的一部分。該應用程序存儲從各種開放數據Web服務收集的信息。每隔一段時間(也許一週或更少),我需要檢查這些Web服務,以查看是否有任何數據已更新。如何管理一個長時間(幾天)的Python進程
我已經寫了一個python腳本來做到這一點。它可以工作,但速度非常慢,我經常在它完成之前得到這個錯誤:ConnectionError:[Errno 104]通過同級重置連接
基於一些實驗,我認爲這個過程需要幾天的時間才能完成。除了優化腳本之外,處理這種長時間運行的Python過程的最佳方式是什麼?
您是否考慮讓數據庫本身知道數據何時更新,例如'timestamp'列?這將完全緩解在完成全表拉取操作後通過慢比較來檢查更新的需要,而不是僅僅詢問「自mm/dd/yyyy以來哪些行已經更新」 – hexparrot
這是一個好主意,而且我有一個時間戳列。但是,它並不能幫助我第一次檢查數據集。 –
嘗試使用單獨的腳本來訪問數據庫?如果你離開那個獨自工作一天的人,你可以避免這個問題。 –