2015-08-29 50 views
2

我想知道什麼應該是傾倒了大量來自Twitter的流API獲得進入COSMOS的鳴叫爲了運行一個非常簡單的MR工作的最佳方法。從MongoDB中轉儲Twitter的鳴叫COSMOS

我想在轉換集合文件CSV,每行一個大概,然後使用scp那些COSMOS。但是我不確定是否需要HIVE來運行MR工作,或者我可以用更人工的方式運行工作。我正在考慮爲此使用Python,我寧願不必使用Java。

感謝

+0

嗨亞歷杭德羅:-)我不會在這裏很有幫助,因爲我不太瞭解COSMOS,但我儘管放了一條線只是打個招呼,然後...... a)問,你是否關於在mongoDB上運行你自己的MR作業嗎? b)告訴你(可能你已經知道這一點),從mongo collection中導出csv是非常耗時的操作。 Regars - Nick – nickmilon

+0

@nickmilon感謝您指出這一點,我知道MR作業可以直接在MongoDB中運行,我想試試COSMOS。關於CSV,真的不知道,無論如何這將是一個批處理過程,所以我真的不需要實時處理:) – AlejandroVK

回答

0

我認爲這是沒有必要轉儲數據時,MongoDB connector for Haddop都可以使用。據我所知,這樣的連接器可以讓你獲取數據,只有當它是要被處理,像他們通過在Hadoop的地圖流程所需分裂數據獲取記錄。我的意思是,而不是使用默認的FileInputFormat,您使用MongoInputFormat,它實現了InputFormat接口,從而提供了一種獲得分割的列表(這將是某種形式的內MongoDB中,例如數據的固定大小的分區collection的chunck)以及在分片中獲取記錄的方法(例如集合的chunck中的JSON文檔)。

這種連接器必須安裝在羣集的所有節點;它是在我們的路線圖中,與我們自己的connector一起以CKAN類似的方式工作。到9月底爲止。儘管如此,如果因爲任何原因你仍然希望將數據轉儲到HDFS,最好的辦法是創建一個腳本負責讀取MongoDB數據,並將其轉換爲Cygnus可理解的類似NGSI的通知;那麼天鵝座將會完成剩下的工作。

+0

是否需要NGSI格式是或是? CSV不是一個選項?我真的不明白爲什麼我需要在這裏使用Orion數據格式......使用NGSI是強制性的嗎?謝謝 – AlejandroVK

+0

它只適用於Cygnus輸入的NGSI(它是Cygnus說的「語言」),那麼數據將以HDS文件格式存儲在JSON格式中。 – frb

+0

爲什麼我需要在這裏使用天鵝座?我仍然沒有看到這與Orion-Cygnus有什麼關係...... – AlejandroVK