2017-07-18 68 views
1

我是新來弗林克多個文件,我的理解是繼API調用弗林克流AWS S3並行讀取

StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path) 

將並行讀取該文件給出S3存儲路徑。

我們存儲S3的日誌文件。要求是服務多個客戶端請求從具有時間戳的不同文件夾讀取。

對於我的使用情況,服務多個客戶端的請求,我正在評估使用弗林克。因此,我希望Flink能夠針對不同的AWS S3文件路徑並行執行AWS S3讀取。

是否有可能在單弗林克工作實現這一目標。有什麼建議麼?關於S3文件系統的支持

回答

0

文檔可以發現here

您可以從不同的目錄讀取和使用union()運營商的所有記錄在不同的目錄合併成一個流。

也可以通過使用類似(未經測試)來讀取嵌套文件:

TextInputFormat format = new TextInputFormat(path); 
Configuration config = new Configuration(); 
config.setBoolean("recursive.file.enumeration", true); 
format.configure(this.config); 
env.readFile(format, path);