2013-01-25 50 views
0

我有一個使用Webfaction上託管的PostgreSQL數據庫的基於Django的網站。我通常從另一個網站手動收集數據庫的數據(複製粘貼到文本文件中),該網站列出了HTML表格中單個網頁上的所有數據。從網站自動收集數據到我的數據庫?

至於自動收集數據與Python,我猜我應該使用像html5lib或Scrapy的東西來編寫一個腳本,加載網頁,找到我想要的HTML表,從中提取數據,將其格式化爲JSON,然後使用

manage.py loaddata fixturename.json 

將我的數據加載到我的數據庫中。然而,我的問題是,如何讓這個腳本每天在Webfaction的服務器上自動運行一次?

回答

3

您可以使用cron安排任務。

你的crontab文件可能是這個樣子:

# Minute Hour Day of Month  Month   Day of Week  Command  
# (0-59) (0-23)  (1-31) (1-12 or Jan-Dec) (0-6 or Sun-Sat)     
    0  1   *    *    *   /usr/bin/python manage.py loaddata fixturename.json 

(或者你可以使用@daily /usr/bin/python manage.py loaddata fixturename.json在每晚午夜運行)

見webfaction文檔:http://docs.webfaction.com/software/general.html#scheduling-tasks-with-cron

1

你想運行CRON工作。這是一種讓服務器按照您設置的任何時間表重複運行一次或反覆運行的方式。

另外,請確保您有權限屏幕刮別人的內容。