distributed-computing

3熱度

2回答

我有一個文件，有40 000行，在每一行中單個字，彼此。我開始的Hadoop，主人，奴隸 - 一切正常： start-dfs.sh;start-yarn.sh;/opt/spark/sbin/start-master.sh;/opt/spark/sbin/start-slaves.sh 我運行示例應用程序，它計算的話： /opt/spark/bin/spark-submit --class

1熱度

1回答

在同一個應用程序

從任務（地圖功能）中創建的火花任務是否有可能做從映射功能pyspark地圖（從任務即）？換句話說，是否可以從任務中打開「子任務」？如果是這樣 - 我如何將sparkContext傳遞給任務 - 就像變量一樣？我想有一個由許多任務組成的工作 - 這些任務應該創造許多任務爲好，不回去給駕駛員。我的用例如下：我正在做一個使用工作隊列編寫的應用程序的代碼移植 - pyspark。在我的舊應用程

0熱度

1回答

分發使用MPI

不均勻的工作量我有一個數組 A(1:n_max) ，我想，以評估一些F（A（j）段）與MPI散射。然而，f（A（1））的評估耗時0.35s，f（A（n_max））的評估耗時15s。我對如何解決它有不同的想法，但我不確定哪一個是最好的：一些主/從工作負荷分配。沿此線：http://www.hpc.cam.ac.uk/using-clusters/compiling-and-developme

3熱度

3回答

如何使用python或jupyter筆記本電腦的火花

我想在python中使用12GB的數據，我迫切需要使用Spark，但我想我太愚蠢了，無法使用自己或通過互聯網使用命令行這就是爲什麼我想我必須轉向SO，所以到目前爲止，我已經下載了火花和解壓tar文件或任何（是語言的抱歉，但我感到愚蠢和出），但現在我可以看到無處可去。我看過火花網站文檔的說明，它說： Spark還提供了Python API。要在Python解釋器中以交互方式運行Spark，請使用b

3熱度

1回答

如何加載Spark模型以進行高效的預測

當我構建Spark模型並調用它時，預測需要幾十ms才能返回。但是，當我保存相同的模型，然後加載它，預測需要更長的時間。我應該使用某種緩存嗎？ model.cache()加載後不起作用，因爲模型不是RDD。這個偉大的工程： from pyspark.mllib.recommendation import ALS from pyspark import SparkContext import

0熱度

2回答

每個連接線程模型有什麼缺點？

其中Distributed Systems Prayer的分站：我實現了一個線程，每個連接模型我對此聲明有以下幾個問題：是什麼這種模型在設計服務器/分佈式系統時的缺點？在大多數情況下，哪種方法更好？在什麼情況下它可能是正確的方法？

0熱度

1回答

連接由對等[錯誤104]在Python

復位我有一個威騰分佈式程序。網絡中的每個節點（虛擬機）都會將數據（通過傳出連接）發送到每個其他節點並從其他節點接收數據（通過傳入連接）。在發送數據之前，所有節點都向每個其他節點（包括單個源節點）開放一個套接字。延遲3秒後，源開始向網絡中的每個其他節點發送不同的文件塊。每個節點在第一個數據包到達後開始轉發接收塊。的程序成功完成了多次，沒有任何錯誤。但是，有時候一個隨機節點會重置所包含的連接（雖然仍

0熱度

1回答

比其源

我有一個RDD叫codes，這是一對，有一個字符串作爲其上半年和另一對作爲其下半年更多的元素創建RDD： In [76]: codes.collect() Out[76]: [(u'3362336966', (6208, 5320)), (u'7889466042', (4140, 5268))] 和我試圖得到這個： In [76]: codes.collect() Out[76]

1熱度

2回答

無法爲風暴啓動器示例構建風暴

我是一個具有Apache風暴的完全新手。我試圖追隨風暴先鋒。我克隆了存儲庫，然後嘗試構建並安裝本地風暴。不幸的是，我甚至無法做到這一點。無法建造暴風雨度量罐 [INFO] ------------------------------------------------------------------------ [INFO] Building storm-metrics 2.0.0-SNAP

3熱度

3回答

爲什麼將spark中的參數提取爲局部變量會更安全？

我看到這本書的這個例子「學習星火：快如閃電的大數據分析」： class SearchFunctions(val query: String) { // more methods here def getMatchesNoReference(rdd: RDD[String]): RDD[String] = { // Safe: extract just the field we need in