apache-flink

    3熱度

    1回答

    在Apache Flink中使用自定義分區程序時,我想將數據集的某些元素分配給多個分區。目前我嘗試複製這些元素並將每個元素分配給一個集羣。我想知道有什麼方法可以這樣做嗎?如果不是什麼是複製數據集子集的有效方式?

    0熱度

    1回答

    目前,我正在使用144個TaskSlots在4臺機器的遠程集羣上運行Flink程序。 30分左右運行後,我收到以下錯誤: INFO org.apache.flink.runtime.jobmanager.web.JobManagerInfoServlet - Info server for jobmanager: Failed to write json updates for job b2eaf

    2熱度

    1回答

    我已經構建了一個自定義源來處理Flink中的日誌流。 該程序運行良好,並在處理記錄後給我所需的結果。 但是,當我檢查Web UI時,我沒有看到計數。以下是屏幕截圖: Records/Bytes Count

    1熱度

    1回答

    我想使用sbt交叉編譯功能編譯Scala 2.10和2.11的項目。問題是這個項目包含一些Flink依賴項。但Flink jar不遵循標準的二進制格式(後綴_2.10或_2.11):scala 2.10 jar沒有後綴,並且2.11擁有它。 我找到了一個工作解決方案。但我對此並不滿意,我的問題是:有沒有更簡單和/或更優雅的方法來解決這個問題? 我目前的解決方案: def flinkDependen

    1熱度

    1回答

    我在eclipse中運行flink,必要的jar已被Maven提取。我的機器有一個帶有八個內核的處理器,我必須寫的流應用程序從它的輸入中讀取行並計算一些統計數據。 當我在我的機器上運行該程序時,我期望flink使用CPU的所有內核以及線程代碼。但是,當我觀察內核時,我發現只有一個內核正在使用。我嘗試了很多東西,並在下面的代碼中留下了我的最後一次嘗試,即設置環境的並行性。我也嘗試將它設置爲單獨的流等

    2熱度

    1回答

    我有一個程序在本地集羣中正常工作,但在遠程集羣上執行時沒有正常運行。我想知道,調試在遠程Flink集羣上運行的程序的最佳和常見方式是什麼? 任何幫助表示讚賞!

    1熱度

    1回答

    我使用java.util.Map作爲位置或表​​達式鍵不支持的數據類型,所以如果組字段數大於25,我該如何將基於java.util.Map的數據集分組? 示例代碼示出如下: Map<String,Object> input1 = new HashMap<>(); for (int i=0; i<30; i++){ input.put("groupField" + i,"value"+i

    1熱度

    1回答

    我正在使用Flink 0.10.1的DataSet API編寫應用程序。 我可以使用Flink中的單個操作員獲得多個收集器嗎? 我想要做的是什麼樣的東西如下: val lines = env.readTextFile(...) val (out_small, out_large) = lines **someOp** { (iterator, collector1, collector

    1熱度

    2回答

    我使用dop> 1來執行我的程序,但我不想要多個輸出文件。 Java myDataSet.writeAsText(outputFilePath, WriteMode.OVERWRITE).setParallelism(1);按預期工作。 但是,當我在Python中嘗試相同它不起作用。這是我的代碼:myDataSet.write_text(output_file, write_mode=WriteM

    0熱度

    1回答

    瞭解Flink體系結構(物理和運行時間)的組織結構,瞭解其內部工作原理(分佈,並行性等)的最佳方法是什麼?代碼? 在當前的技術水平下,平流層(Nephele,PACT等)的論文需要考慮多少可靠性? 謝謝!