2
我正在研究一個項目,它將使用來自Twitter Stream API的數據並計算特定的主題標籤。但是我在理解我需要的是什麼樣的架構時遇到困難。我應該使用Tornado還是有更適合的框架?使用Python實時處理數據
我正在研究一個項目,它將使用來自Twitter Stream API的數據並計算特定的主題標籤。但是我在理解我需要的是什麼樣的架構時遇到困難。我應該使用Tornado還是有更適合的框架?使用Python實時處理數據
這實際上取決於你想用Tweets做什麼。簡單閱讀推文流並不是我見過的問題。實際上,這可以在AWS Micro Instance上完成。我甚至在實時Feed上運行更高級的迴歸算法。如果您嘗試處理一組歷史推文,則會出現可伸縮性問題。由於推文生成速度如此之快,因此處理歷史推文可能會非常緩慢。那時你應該嘗試並行化。
謝謝您的回覆。現在我要讀一個流,並且可以說每30分鐘對新消息進行一次計算。這裏是我的理解,我應該在哪裏運行作業來檢索和存儲消息。 – barmaleikin
如果您只關注帶有某個特定標籤的推文,則可能需要在推文進入時進行過濾。實際上,如果您不關心推文的其餘部分,則應該只寫一個帶有計數的表格。我發現處理大量數據的關鍵是將其減少到您攝入時真正需要的數據。對這些數據的任何分析都非常輕。當然,這意味着你需要決定你做什麼和不需要什麼信息。 – chris