我們如何獲取Twitter(推文)到HDFS進行離線分析。我們有分析推文的要求。Twitter - Hadoop數據流
1
A
回答
0
這可以解決您的問題。
工具捕捉到Twitter的鳴叫
捕獲它的任何格式。 (csv,txt,doc,pdf .....等)
- 把它放到HDFS中。
3
我會尋找流暢的日誌到hadoop發達地區的解決方案,因爲任務看起來有點類似。
有兩個現有系統這樣做:
水槽:https://github.com/cloudera/flume/wiki
而
抄寫:https://github.com/facebook/scribe
所以,你的任務是隻拉來自Twitter的數據,我asume是不是這個問題的一部分,用這個日誌提供這些系統之一。
1
Fluentd日誌收集器剛剛發佈了它的WebHDFS插件,它允許用戶立即將數據流傳輸到HDFS。通過使用fluent-plugin-twitter
此外,您還可以收集的Twitter通過調用其API流。當然,您可以創建自定義收集器,將流發佈到Fluentd。以下是一個Ruby日誌示例,可以針對Fluentd發佈日誌。
相關問題
- 1. 流數據和Hadoop? (而不是Hadoop流)
- 2. Twitter流API數據結構
- 3. Hadoop的數據流將使用Python蒙戈 - Hadoop的
- 4. Hadoop數據和控制流程
- 5. 的Hadoop MapReduce的數據流不運行
- 6. 錯誤,同時流twitter數據
- 7. 將facebook數據流式傳輸到Hadoop HDFS
- 8. Hadoop數據拆分和數據流控制
- 9. Hadoop流分類
- 10. 使用來自Twitter的流媒體數據與流星
- 11. Twitter Storm v/s Apache Hadoop
- 12. Twitter搜索API和Hadoop
- 13. zgrep在Hadoop的流
- 14. 合砍Hadoop的流
- 15. Twitter網站流
- 16. Twitter流api
- 17. Twitter iOS流
- 18. Hadoop數據攝入
- 19. Hadoop Hive數據庫
- 20. Hadoop數據提取
- 21. Hadoop和數據庫
- 22. Twitter的數據
- 23. Hadoop數據流丟失非常大的記錄
- 24. 使用二進制數據級聯hadoop流式映射還原
- 25. 多個輸出文件Hadoop的數據流與Python映射
- 26. 支持Kerberos的Hadoop集羣中的Spring Cloud數據流
- 27. Hadoop的數據流是如何工作的
- 28. 如何將數據從Mongodb流式傳輸到Hadoop
- 29. 哪些技術可用於從社交媒體流向hadoop的流數據?
- 30. Twitter流媒體API