distributed-computing

0熱度

2回答

我知道Apache Helix允許動態集羣擴展/收縮（例如添加/失敗/刪除物理節點）。但是，如果單個物理節點無法處理單個分區副本，則需要將分區分成兩部分。我知道我們需要預先估計工作量，所以我們可以預先設置足夠數量的分區。但是，隨着流量不可預測地上升，幾乎不可能做出這樣的預估。任何人都可以告訴我Helix是否支持重新分區開箱即用？如果我需要對其進行定製以添加重新分區功能，那麼原理上的努力程度和方法如

1熱度

1回答

PBFT中的委員會變更

我正在實施使用實用拜占庭容錯的分佈式系統。這個方法委託一個委員會爲每個提交投票。但是，如果它們全部崩潰或在DDoS攻擊下，整個網絡將崩潰。我很好奇是否有辦法改變整個委員會。這與視圖更改不同，因爲視圖更改只會替換錯誤的節點，而這需要替換所有委員會成員，從而組成一個充滿活力的委員會。

2熱度

1回答

如何使dworkers進行多進程？

我正在從事分佈式集羣計算。要實現這樣的系統，我試圖使用dask.distriuted的python庫。但是存在一個問題，即dworkers不適用於多進程，意味着2個或3個dworkers一起工作，但不支持多處理lib中支持的多個執行。爲例： def testFun(): while True: time.sleep(3) print('looping') 如果我在cli

0熱度

1回答

Spark作爲Mapreduce的存儲層

我面臨一個獨特的問題，並希望您的意見在這裏。我有一個傳統的map-reduce應用程序，其中多個map-reduce作業按順序運行，中間數據來回寫入HDFS。由於將中間數據寫入HDFS，具有小數據的作業將比HDFS的功能獲得的收益損失更多，而且花費的時間要遠遠多於非Hadoop等價物所花費的時間。最終，我計劃將我所有的地圖縮減工作轉換爲Spark DAG，但這是一個巨大的改變，所以我相當拖延。

1熱度

1回答

有沒有辦法像MPI_BARRIER那樣在tensorflow中做？

當進行分佈式異步培訓時，需要讓所有員工在某個時間等待同步模型參數，例如，一旦時期完成就進行同步，並在驗證集上計算出auc。 MPI_BARRIER在使用MPI時足夠好，在張量流中是否有類似的東西？

1熱度

1回答

tensorflow monitoredsession用法

我有以下代碼來執行簡單的算術計算。我試圖通過使用受監視的培訓會話來實現容錯。 import tensorflow as tf global_step_tensor = tf.Variable(10, trainable=False, name='global_step') cluster = tf.train.ClusterSpec({"local": ["localhost:2222",

1熱度

1回答

如果主從站無法通信會發生什麼？

我正在學習動物園管理員的主從模式。我只是有一個問題：如果一個主人和一個奴隸不能互相溝通會發生什麼？像主人不能從奴隸得到ACK？奴隸重新啓動自己？

0熱度

1回答

爲什麼他們使用兩個長WS連接來實現每個用戶的聊天室

這是一個聊天室的設計。他們在客戶端使用兩個長的ws連接。一個是上升的，另一個是下降的？這種設計的好處是什麼。該公司具有非常大的併發性。最近，他們分享了他們設計的聊天室。他們可以在同一個房間裏處理100,000多個併發。我認爲這可能是由於需要使用不同的IDC引起的，上行連接將連接到主數據庫位於該IDC的IDC。輕鬆實現業務邏輯。您的意見是？

1熱度

1回答

如何確保客戶端代碼在多臺計算機上運行時的服務調用上限？

假設我有一個API getName（String id）的restful服務X.我的代碼被部署到位於負載平衡器後面的5臺機器。相同的客戶端代碼在這些機器上運行，並在某處調用getName（String）api的服務X.該服務已經設置了一個限制，即每秒最多可處理3個呼叫。假設請求的週轉時間爲200毫秒，我如何確保我的客戶端不超過服務器的3 TPS限制？我沒有任何機制讓我的客戶相互溝通。如何避免服務器

2熱度

2回答

Zookeeper無法定位hbase僞分佈式模式下的主節點

我想以僞分佈式模式運行hbase，安裝是從頭開始的。跟着步 start HBase。啓動HBase的主服務器啓動區域服務器開始HBase的殼牌執行列表 HBase的正常啓動，因此HBase的外殼。當我檢查動物園管理員，主人以及地區所有服務器都起來了。對於任何查詢hbase shell提示，我得到這個錯誤。錯誤 - 無法從ZooKeeper獲取主地址; Z序節點的數據== NULL