2013-10-06 19 views
0

我一直在做這方面的一些閱讀,但無法找到正確的信息,我們一直在使用Twitter Streaming,Datasift和其他數據推送服務。我想了解下列服務如何工作,實時文本分析怎麼發生

  1. 每秒接收的推文數量非常高。
  2. 許多人連接指定他們想要接收tweets的關鍵字,這些可以是複雜的布爾查詢。
  3. 針對所有這些布爾查詢實時檢查所有推文,然後將數據流式傳輸到正確的連接。

任何指向正在使用的架構的指針都會有所幫助。

+0

觀察者模式 –

回答

0

我認爲你首先需要了解服務的規模和資源,比如你試圖創建一個理解的推特!性能可以通過管理照顧下面提到的兩個方面來處理。

  1. 想象一下帶有負載平衡器,多個Web服務器和大型數據中心的分層式緩存的多層生態系統!

  2. 無論算法性能的複雜程度如何,都可以通過多線程算法來管理!

如果你真的想了解嘗試閱讀的map-reduce,Hadoop的等,以得到一個想法