2012-10-23 191 views
2

我對Python非常陌生,閱讀了關於Python3初學者書籍的一半。我認爲這樣做會讓我去學習一些我真正想做的事情,而不是去做一些「無聊」的練習。用Python刮新聞網站

我想要構建一個應用程序,它將刮掉頂級URL的Reddit,然後將這些發佈到我自己的頁面上。它每天只能檢查幾次,所以在這裏完全不用敲打。

我想解析Reddit json(http://www.reddit.com/.json)和其他subreddits json到URL中,我可以將其組織到我自己的頂級列表中,並在我的頁面上也有我自己的類別所以我不必繼續訪問Reddit。

該網站將是一個Wordpress模板,數據庫託管在它自己的服務器上(mysql)。我將在AWS上使用RDS,ELB,自動縮放和EC2實例在Web服務器上進行託管。

我的問題是:

-Would是有意義的保持它自己的服務器上運行的Python的應用刮,然後寫刮網址到數據庫?

- 我聽說分割應用程序是有意義的,一個人在閱讀而另一個人在閱讀,這是怎麼回事?

- Python代碼的流程是什麼樣子?我可以編寫它,但我只是不完全確定它應該如何流動。

- 我還有什麼不想在這裏,任何提示?

回答

2

將Python刮板應用程序運行在 它自己的服務器上,然後將被刮取的URL寫入數據庫是否合理?

是的,這是一個好主意。我會設置一個cron作業來經常運行程序。根據您所期望的負載,它不一定需要位於其自己的服務器上。我會把它作爲自己的應用程序。

我聽說它可能是有意義的拆分應用程序和一個 閱讀,而另一個寫作,這是怎麼回事?

我假設誰說,這意味着,你應該寫你的數據庫(你的Python腳本)的應用程序和應用程序從數據庫中讀取的URL(你的WordPress的包裝,或者是另一個Python腳本的人寫一些WordPress可以理解的東西)。

將在Python代碼的流程是什麼樣子的?我可以摸索我的方式 圍繞它寫,但我只是不完全確定它應該如何流 。

這是程序員之間有點宗教的問題。但是我覺得你的程序應該足夠簡單。我只想搶JSON和具有插入到數據庫中,如果該條目尚不存在的查詢。

還有什麼我不能想到的這裏,任何提示?

我個人使用的urllib2和MySQLdb的模塊的Python腳本。祝你好運!

+0

您可能想看看使用[PRAW(https://github.com/praw-dev/praw/wiki)來處理事物的reddit的一面。 – bboe