distributed-computing

    0熱度

    2回答

    我知道Apache Helix允許動態集羣擴展/收縮(例如添加/失敗/刪除物理節點)。但是,如果單個物理節點無法處理單個分區副本,則需要將分區分成兩部分。我知道我們需要預先估計工作量,所以我們可以預先設置足夠數量的分區。但是,隨着流量不可預測地上升,幾乎不可能做出這樣的預估。任何人都可以告訴我Helix是否支持重新分區開箱即用?如果我需要對其進行定製以添加重新分區功能,那麼原理上的努力程度和方法如

    1熱度

    1回答

    我正在實施使用實用拜占庭容錯的分佈式系統。這個方法委託一個委員會爲每個提交投票。但是,如果它們全部崩潰或在DDoS攻擊下,整個網絡將崩潰。我很好奇是否有辦法改變整個委員會。這與視圖更改不同,因爲視圖更改只會替換錯誤的節點,而這需要替換所有委員會成員,從而組成一個充滿活力的委員會。

    2熱度

    1回答

    我正在從事分佈式集羣計算。要實現這樣的系統,我試圖使用dask.distriuted的python庫。但是存在一個問題,即dworkers不適用於多進程,意味着2個或3個dworkers一起工作,但不支持多處理lib中支持的多個執行。 爲例: def testFun(): while True: time.sleep(3) print('looping') 如果我在cli

    0熱度

    1回答

    我面臨一個獨特的問題,並希望您的意見在這裏。 我有一個傳統的map-reduce應用程序,其中多個map-reduce作業按順序運行,中間數據來回寫入HDFS。由於將中間數據寫入HDFS,具有小數據的作業將比HDFS的功能獲得的收益損失更多,而且花費的時間要遠遠多於非Hadoop等價物所花費的時間。最終,我計劃將我所有的地圖縮減工作轉換爲Spark DAG,但這是一個巨大的改變,所以我相當拖延。

    1熱度

    1回答

    當進行分佈式異步培訓時,需要讓所有員工在某個時間等待同步模型參數,例如,一旦時期完成就進行同步,並在驗證集上計算出auc。 MPI_BARRIER在使用MPI時足夠好,在張量流中是否有類似的東西?

    1熱度

    1回答

    我有以下代碼來執行簡單的算術計算。我試圖通過使用受監視的培訓會話來實現容錯。 import tensorflow as tf global_step_tensor = tf.Variable(10, trainable=False, name='global_step') cluster = tf.train.ClusterSpec({"local": ["localhost:2222",

    1熱度

    1回答

    我正在學習動物園管理員的主從模式。我只是有一個問題: 如果一個主人和一個奴隸不能互相溝通會發生什麼?像主人不能從奴隸得到ACK?奴隸重新啓動自己?

    0熱度

    1回答

    這是一個聊天室的設計。他們在客戶端使用兩個長的ws連接。一個是上升的,另一個是下降的? 這種設計的好處是什麼。 該公司具有非常大的併發性。最近,他們分享了他們設計的聊天室。他們可以在同一個房間裏處理100,000多個併發。 我認爲這可能是由於需要使用不同的IDC引起的,上行連接將連接到主數據庫位於該IDC的IDC。輕鬆實現業務邏輯。 您的意見是?

    1熱度

    1回答

    假設我有一個API getName(String id)的restful服務X.我的代碼被部署到位於負載平衡器後面的5臺機器。相同的客戶端代碼在這些機器上運行,並在某處調用getName(String)api的服務X.該服務已經設置了一個限制,即每秒最多可處理3個呼叫。假設請求的週轉時間爲200毫秒,我如何確保我的客戶端不超過服務器的3 TPS限制?我沒有任何機制讓我的客戶相互溝通。如何避免服務器

    2熱度

    2回答

    我想以僞分佈式模式運行hbase,安裝是從頭開始的。 跟着步 start HBase。 啓動HBase的主服務器 啓動區域服務器 開始HBase的殼牌 執行列表 HBase的正常啓動,因此HBase的外殼。 當我檢查動物園管理員,主人以及地區所有服務器都起來了。 對於任何查詢hbase shell提示,我得到這個錯誤。 錯誤 - 無法從ZooKeeper獲取主地址; Z序節點的數據== NULL