distributed-computing

    1熱度

    2回答

    我使用的是運行時版本2.11和Flink Core 1.1.2的舊版本Apache Flink。由於與其他庫的兼容性問題,我無法將其升級到較新的Apache Flink。我試圖禁用運行時的節點日誌記錄,以儘量減少執行時間。我試着用下面的代碼,但消息顯示nethertheless: Log4jLoggerAdapter logger = (Log4jLoggerAdapter)LoggerFacto

    1熱度

    1回答

    我正在查看Graph Engine(不要與MSFT AD Graph混淆),但我對分佈式「fanout search」有疑問。 從我可以告訴 對象保存在跨N臺服務器分佈式的方式。 N臺服務器的這種分配不能在運行時改變 基於某些配置設置,也可以是「只讀」 沒有「認證」的節點之間,就命令這是完全信任有效。 我感到困惑 以什麼方式是數據分片/跨節點劃分? 在寫入過程中可能成爲瓶頸的「全局鎖」有多大侵入性

    2熱度

    1回答

    我很想了解Spark如何實現容錯。在他們的paper中,他們描述了他們如何爲像地圖這樣相當簡單的「狹義依賴性」做到這一點。但是,如果一個節點在像排序操作這樣的廣泛依賴之後崩潰,他們不會說明他們做了什麼。我能找到的唯一的事情是這樣的: 相比之下,具有廣泛的依賴關係的譜系圖,一個失敗的節點可能會導致某些分區的損失從RDD的所有祖先,需要一個完整的重執行。 這對於理解發生的事情並不足夠。 排序後,沒有辦

    5熱度

    1回答

    我已經在羣集上啓動並運行了dask,但似乎無法訪問診斷網頁。着陸頁是可見的,見下圖: 但是所有的鏈接只是掛永不加載頁面。 調度開始細跟這樣的輸出: [[email protected] ~]$ dask-scheduler --scheduler-file dask-scheduler.json distributed.scheduler - INFO - -------------------

    0熱度

    1回答

    我剛剛完成了一個數據庫課程,深入到數據庫的內部。我試圖將我們在課程中學到的所有術語連接起來,但我感覺我缺少一些片段。這裏是我所知道的: 數據庫:數據結構的「邏輯」表示 - 可互換地用來指物理數據,關係案例中的「表格」數據和DBMS。 數據庫管理系統(DBMS):爲管理員/用戶提供開發加速訪問等機制的工具。系統理解數據的統計信息,並可執行查詢優化以開發良好的執行路徑。例如:PostgreSql,My

    1熱度

    3回答

    你好我經常需要在我的代碼中使用groupByKey,但我知道這是一個非常繁重的操作。由於我正在努力提高性能,我想知道我的方法是否有效地移除所有groupByKey調用。 我被用來創建從另一個RDD的RDD和創建對類型(INT,INT) rdd1 = [(1, 2), (1, 3), (2 , 3), (2, 4), (3, 5)] ,因爲我需要獲得這樣的事情: [(1, [2, 3]), (2 ,

    1熱度

    2回答

    我想讓我的Spark程序執行速度有時間,但由於懶惰,這是相當困難的。讓我們考慮到這裏本(意義)代碼: var graph = GraphLoader.edgeListFile(context, args(0)) val graph_degs = graph.outerJoinVertices(graph.degrees).triplets.cache /* I'd need to start

    0熱度

    2回答

    我正在閱讀關於八卦式失敗檢測的內容。 在我正在讀它的Notes的指出:a single heartbeat takes O(log(N)) time to propagate但這一說法沒有解釋 任何想法,這是爲什麼?

    1熱度

    1回答

    我目前在一家公司的大數據團隊工作,我需要從Dynamo數據庫導出數據到亞馬遜s3,當導出數據和使用火花查詢提取的半結構化JSON時,需要40分鐘才能進行即席查詢與全表掃描。我閱讀了關於apache操作及其對非結構化數據進行秒查詢的能力,是否應該繼續使用apache操作或對json進行扁平化並將其存儲爲配置單元ORC表(一萬個列)?換句話說,我需要進行查詢而無需進行全表掃描。

    1熱度

    1回答

    我是新來的並行計算,我無法理解PBS系統的使用。我已成功安裝SLURM並設置處理節點。但無法理解我如何在多個節點之間分配任務。 有很多簡單的例子,但他們只是運行簡單的「Hello World」程序,這就是全部。 考慮下面的例子,我在網上找到了。 #!/bin/bash #SBATCH -N 4 #SBATCH -c 1 #SBATCH --time=0-00:15:00 # 30 minu