2015-12-01 39 views
0

我是Spark的新手;看起來很棒!從日誌檔案創建Spark Dstreams

我有不同來源的每小時日誌文件的gobs,並希望從它們創建DStreams約5分鐘的滑動窗口來探索相關性。

我只是想知道最好的方法來完成這可能是。我應該將它們分成不同目錄中的5分鐘塊嗎?這個命名結構如何與不同的HDFS目錄中的特定時間片相關聯?我是否實現了知道日誌記錄的嵌入式時間戳的filter()方法?

建議,RTFM歡迎。

謝謝! Chris

回答