apache-flink

3熱度

1回答

在Apache Flink中使用自定義分區程序時，我想將數據集的某些元素分配給多個分區。目前我嘗試複製這些元素並將每個元素分配給一個集羣。我想知道有什麼方法可以這樣做嗎？如果不是什麼是複製數據集子集的有效方式？

0熱度

1回答

目前，我正在使用144個TaskSlots在4臺機器的遠程集羣上運行Flink程序。 30分左右運行後，我收到以下錯誤： INFO org.apache.flink.runtime.jobmanager.web.JobManagerInfoServlet - Info server for jobmanager: Failed to write json updates for job b2eaf

2熱度

1回答

Fllink Web UI不顯示自定義源實現中收到的記錄

我已經構建了一個自定義源來處理Flink中的日誌流。該程序運行良好，並在處理記錄後給我所需的結果。但是，當我檢查Web UI時，我沒有看到計數。以下是屏幕截圖： Records/Bytes Count

1熱度

1回答

如何聲明Flink sbt跨版本依賴關係？

我想使用sbt交叉編譯功能編譯Scala 2.10和2.11的項目。問題是這個項目包含一些Flink依賴項。但Flink jar不遵循標準的二進制格式（後綴_2.10或_2.11）：scala 2.10 jar沒有後綴，並且2.11擁有它。我找到了一個工作解決方案。但我對此並不滿意，我的問題是：有沒有更簡單和/或更優雅的方法來解決這個問題？我目前的解決方案： def flinkDependen

1熱度

1回答

在多核處理器上本地運行Apache flink

我在eclipse中運行flink，必要的jar已被Maven提取。我的機器有一個帶有八個內核的處理器，我必須寫的流應用程序從它的輸入中讀取行並計算一些統計數據。當我在我的機器上運行該程序時，我期望flink使用CPU的所有內核以及線程代碼。但是，當我觀察內核時，我發現只有一個內核正在使用。我嘗試了很多東西，並在下面的代碼中留下了我的最後一次嘗試，即設置環境的並行性。我也嘗試將它設置爲單獨的流等

2熱度

1回答

在遠程集羣上調試

我有一個程序在本地集羣中正常工作，但在遠程集羣上執行時沒有正常運行。我想知道，調試在遠程Flink集羣上運行的程序的最佳和常見方式是什麼？任何幫助表示讚賞！

1熱度

1回答

Apache Flink：groupBy/sortBy如何轉換對數據集api中動態元組的支持？

我使用java.util.Map作爲位置或表達式鍵不支持的數據類型，所以如果組字段數大於25，我該如何將基於java.util.Map的數據集分組？示例代碼示出如下： Map<String,Object> input1 = new HashMap<>(); for (int i=0; i<30; i++){ input.put("groupField" + i,"value"+i

1熱度

1回答

Apache Flink：如何使用Flink DataSet API從一個數據集創建兩個數據集

我正在使用Flink 0.10.1的DataSet API編寫應用程序。我可以使用Flink中的單個操作員獲得多個收集器嗎？我想要做的是什麼樣的東西如下： val lines = env.readTextFile(...) val (out_small, out_large) = lines **someOp** { (iterator, collector1, collector

1熱度

2回答

在Python中設置單個操作的並行度

我使用dop> 1來執行我的程序，但我不想要多個輸出文件。 Java myDataSet.writeAsText(outputFilePath, WriteMode.OVERWRITE).setParallelism(1);按預期工作。但是，當我在Python中嘗試相同它不起作用。這是我的代碼：myDataSet.write_text(output_file, write_mode=WriteM

0熱度

1回答

Flink的內部工作與體系結構知識來源

瞭解Flink體系結構（物理和運行時間）的組織結構，瞭解其內部工作原理（分佈，並行性等）的最佳方法是什麼？代碼？在當前的技術水平下，平流層（Nephele，PACT等）的論文需要考慮多少可靠性？謝謝！