2013-07-09 64 views
1

我正在嘗試構建一個應用程序,用戶將能夠連接到我的應用程序,輸入用於在Twitter上搜索的關鍵字,然後將結果存儲在數據庫中。從用戶輸入關鍵字的那一刻起,我想跟蹤Twitter上的內容。這些結果將進一步分析,並向用戶顯示一些統計信息。 到目前爲止,我使用tweppy和twitter streaming api獲取推文。但是我意識到,我不能有多個開放的流式連接(用於並行搜索多個關鍵字)。
我搜索了stackoverflow,發現解決方案,如斷開,連接,然後搜索一個新的關鍵字,但在這種情況下,我將失去數據。從twitter蟒蛇中檢索數據

我也檢查了Twitter的API,它給你450結果最大/ 15分鐘:
https://dev.twitter.com/docs/rate-limiting/1.1/limits

流API:
- 公共流不給機會向比連接
更多 - 網站流不會給你搜索的機會

Firehose API不是選項,因爲太貴了。

我怎樣才能解決這個問題?我看到很多應用程序正在搜索實況以上的實例。有沒有人遇到過這個?

回答

0

您可以使用tweepy從示例或過濾流式端點收集所有推文並將其保存到數據庫中。然後使用數據庫只爲您的搜索字詞返回推文。

如果您不希望推文持續太久,那麼使用redis等noSQL數據庫並使用過期時間戳可能會獲得更好的結果,因此它不會無限充實。

+0

示例和過濾器僅返回一定數量的推文,除非用戶定義的關鍵字是趨勢,否則可能不會包含在結果中,因此我的數據對搜索非常具體的內容的用戶無用。 – alreadygone