2012-04-11 94 views
0

閱讀完所有Twitter流媒體API和PHP文檔後,我遇到了一些我尚未完成的工作,分別收集和處理數據。使用PHP(Twitter Streaming API)收集和處理數據

它背後的邏輯,如果我理解正確,是爲了防止在備份收集過程的處理階段發生日誌堵塞。我已經看過一些例子,但是他們基本上是在收集後正確地寫入MySQL數據庫,這似乎違背了Twitter推薦的做法。

我想要一些建議/幫助是什麼,處理這個問題和如何處理的最佳方法是什麼。似乎人們建議將所有數據直接寫入文本文件,然後使用單獨的函數解析/處理它。但用這種方法,我會認爲它可能是一個記憶豬。

下面是捕獲,它將作爲守護進程/後臺進程運行。那麼有沒有人有解決這個問題的任何經驗,或更具體地說,嘰嘰喳喳phirehose圖書館?謝謝!

一些注意事項: *連接將通過套接字,所以我的猜測是該文件將不斷附加?不知道是否有人對此有任何反饋

回答

1

phirehose庫附帶了一個如何做到這一點的例子。請參閱:

它使用一個平面文件,這是非常可擴展性和快速的,即:你的硬盤平均可以在40MB/S +順序寫,線性縮放(即:與數據庫不同,它不會隨着它變大而減慢)。

您不需要任何數據庫功能來使用流(例如:您只需要下一條推文,不需要「查詢」)。

如果您經常旋轉文件,您將獲得接近實時的性能(如果需要)。