0
我有一個hadoop集羣和apache flume用於從twitter到HDFS的數據集成,默認情況下按照時間順序獲取數據,就像最新的tweet將被首先獲取,同樣,現在我有用於從twitter獲取特定數據的特定數據期間,例如2013年2月。 請讓我知道是否有任何配置或財產的水槽或Twitter手柄需要設置。如何配置Apache Flume以在特定時期從Twitter獲取數據?
在此先感謝。
我有一個hadoop集羣和apache flume用於從twitter到HDFS的數據集成,默認情況下按照時間順序獲取數據,就像最新的tweet將被首先獲取,同樣,現在我有用於從twitter獲取特定數據的特定數據期間,例如2013年2月。 請讓我知道是否有任何配置或財產的水槽或Twitter手柄需要設置。如何配置Apache Flume以在特定時期從Twitter獲取數據?
在此先感謝。
您可能想要使用flume的自定義源代碼。
的TwitterSource在上面的鏈接中提到將幫助您獲取基於關鍵詞的Twitter數據。