使用Python實時處理數據

我正在研究一個項目，它將使用來自Twitter Stream API的數據並計算特定的主題標籤。但是我在理解我需要的是什麼樣的架構時遇到困難。我應該使用Tornado還是有更適合的框架？使用Python實時處理數據

2013-06-18 barmaleikin

這實際上取決於你想用Tweets做什麼。簡單閱讀推文流並不是我見過的問題。實際上，這可以在AWS Micro Instance上完成。我甚至在實時Feed上運行更高級的迴歸算法。如果您嘗試處理一組歷史推文，則會出現可伸縮性問題。由於推文生成速度如此之快，因此處理歷史推文可能會非常緩慢。那時你應該嘗試並行化。

來源

2013-06-18 16:11:07 chris

謝謝您的回覆。現在我要讀一個流，並且可以說每30分鐘對新消息進行一次計算。這裏是我的理解，我應該在哪裏運行作業來檢索和存儲消息。 – barmaleikin

如果您只關注帶有某個特定標籤的推文，則可能需要在推文進入時進行過濾。實際上，如果您不關心推文的其餘部分，則應該只寫一個帶有計數的表格。我發現處理大量數據的關鍵是將其減少到您攝入時真正需要的數據。對這些數據的任何分析都非常輕。當然，這意味着你需要決定你做什麼和不需要什麼信息。 – chris

使用Python實時處理數據

回答

相關問題