2014-01-24 88 views
0

IM學習的Hadoop,水槽等,並在項目中的一個,我開始是情感分析,這是確定的,但現在我嘗試通過收集多組數據的擴大,這是我的flume.conf:多個水槽嘰嘰喳喳代理

TwitterAgent.sources = Twitter 
    TwitterAgent.channels = MemChannel 
    TwitterAgent.sinks = HDFS HDFS2 
    TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource 
    TwitterAgent.sources.Twitter.channels = MemChannel 
    TwitterAgent.sources.Twitter.consumerKey = xxx 
    TwitterAgent.sources.Twitter.consumerSecret = xxxx 
    TwitterAgent.sources.Twitter.accessToken = xxx 
    TwitterAgent.sources.Twitter.accessTokenSecret = xxxx 
    TwitterAgent.sources.Twitter.keywords = bbc 
    TwitterAgent.sinks.HDFS.channel = MemChannel 
    TwitterAgent.sinks.HDFS.type = hdfs 
    TwitterAgent.sinks.HDFS.hdfs.path = hdfs://xxx:8020/user/flume/tweets/ 
    TwitterAgent.sinks.HDFS.hdfs.fileType = DataStream 
    TwitterAgent.sinks.HDFS.hdfs.writeFormat = Text 
    TwitterAgent.sinks.HDFS.hdfs.batchSize = 1000 
    TwitterAgent.sinks.HDFS.hdfs.rollSize = 0 
    TwitterAgent.sinks.HDFS.hdfs.rollCount = 10000 
    TwitterAgent.channels.MemChannel.type = memory 
    TwitterAgent.channels.MemChannel.capacity = 10000 
    TwitterAgent.channels.MemChannel.transactionCapacity = 100 

什麼IM希望實現的是把關於BBC所有的鳴叫在上面的位置,但也可以使用以下配置把有關利物浦的鳴叫到一個單獨的文件夾:

TwitterAgent.sources.Twitter.keywords = liverpool 
    TwitterAgent.sinks.HDFS2.channel = MemChannel 
    TwitterAgent.sinks.HDFS2.type = hdfs 
    TwitterAgent.sinks.HDFS2.hdfs.path = hdfs://xxx:8020/user/flume/tweets/liverpool/ 
    TwitterAgent.sinks.HDFS2.hdfs.fileType = DataStream 
    TwitterAgent.sinks.HDFS2.hdfs.writeFormat = Text 
    TwitterAgent.sinks.HDFS2.hdfs.batchSize = 1000 
    TwitterAgent.sinks.HDFS2.hdfs.rollSize = 0 
    TwitterAgent.sinks.HDFS2.hdfs.rollCount = 10000 
    TwitterAgent.channels.MemChannel2.type = memory 
    TwitterAgent.channels.MemChannel2.capacity = 10000 
    TwitterAgent.channels.MemChannel2.transactionCapacity = 10 

這個心不是工作,我不能工作了爲什麼有人能指出我正確的方向?

+0

你看到的錯誤是什麼?你可能已經看過這個[來自cloudera的博客文章](http://blog.cloudera.com/blog/2012/09/analyzing-twitter-data-with-hadoop) –

+0

通常我只看到一個代理正在運行,所有將數據發送到一個文件夾 –

回答

0

這個答案可能有點晚,但我認爲它不起作用,因爲您只能使用同一個應用程序向Twitter Streaming API打開一個連接。

https://dev.twitter.com/discussions/14935

https://dev.twitter.com/discussions/7542

阿恩Roomann-Kurrik 哪個流端點您使用@kurrik

對於一般流,您應該只從同一個 IP建立一個連接。對於用戶流,來自同一個IP的一個或兩個連接。對於站點 流,支持多個連接(請注意,站點流仍爲 仍處於有限測試版)。

+0

請將您鏈接中的相關部分發布在您的答案中,如果鏈接無效或被移動,則此答案將不再有幫助。 – Popo

+0

完成,感謝您注意到我。 – JochenDB