apache-spark

    1熱度

    1回答

    我在中使用了spark組合模式。我使用import java.io.PrintWriter將驅動節點上的字符串中包含的一些結果保存。 HOwever,在紗線叢集模式下,dirver是集羣節點之一。而且我無法在流程結束時設法檢索這些文件。我還沒有找到。

    0熱度

    1回答

    16/01/13 15:34:07 INFO DAGScheduler: Job 3 finished: first at RowMatrix.scala:65, took 0.013421 s Exception in thread "main" java.lang.IllegalArgumentException: Argument with more than 65535 cols: 26

    8熱度

    2回答

    我正在運行Spark Standalone羣集,並且在提交應用程序時,spark驅動程序停止並出現以下錯誤。 16/01/12 23:26:14 INFO Worker: Asked to kill executor app-20160112232613-0012/0 16/01/12 23:26:14 INFO ExecutorRunner: Runner thread for executo

    0熱度

    1回答

    我需要從服務器端日誌中計算應用程序的「新用戶,活動用戶」。 我已經實現了scala和spark的日常計算算法。這項工作每天提交一次,並獲得當天的所有結果。它運作良好。 這裏是我的舊日常算法實現的一些僞代碼。此代碼運行,每天一次,並得到了一組每日結果: // Get today log from hbase or somewhere else val log = getRddFromHbase(t

    1熱度

    1回答

    t: Array[(Int, String)] = Array((24210720,s503), (24210742,s500), (24210742,s500), (24210748,s503)) 我有一個鍵值對的數組。我想通過鍵減少/ groupby(我不確定使用哪一個),並希望將核心相應值作爲值計數映射。應該是這個樣子 24210720 => {503 => 1},24210742 =>

    0熱度

    4回答

    我正在使用獨立羣集模式1.5.2。 儘管我在spark-env.sh中設置了SPARK_WORKER_MEMORY,但它看起來像忽略了這個設置。 我在bin/sbin下的腳本找不到-Xms/-Xmx設置的任何指示。 如果我使用ps命令工人pid,它看起來像內存設置爲1G: [[email protected] spark-1.5.2-bin-hadoop2.6]$ ps -ef | grep 20

    0熱度

    1回答

    我想一些星火過濾和轉化的,我有樣本數據, 657483, 888888, 9 657483, 888889, 10 657484, 888888, 20 657484, 888889, 30 對於每個x[0]我要檢查的條件相匹配x[1] == '888888' && x[1] == '888889'和得到相對x [2]所以輸出看起來像, 657483,9,10 657484,20,30

    2熱度

    3回答

    我在同一臺機器上有一個Spark集羣和一個Hdfs。 我已經在每臺機器的本地文件系統和hdfs分佈式文件系統上覆制了一個單獨的文本文件,大約爲3Gbytes。 我有一個簡單的字數pyspark程序。 如果我提交從本地文件系統讀取文件的程序,它會持續約33秒。 如果我提交從hdfs讀取文件的程序,它持續約46秒。 爲什麼?我期待完全相反的結果。 增加sgvd的請求後: 16奴隸1個主 星火獨立的,沒

    0熱度

    1回答

    我有一個DataFrame,我想通過一個新列進行擴展。從創建一個新的DateFrame s解釋here。 我目前的策略是與被傳遞到我的地圖由DataFrame.javaRDD().map(...)調用 S中RowFactory建設新秒,但我擔心這可能會產生不必要的費用。 所以我想知道是不是創建新的 s,我可以通過追加新的字段來擴展現有的。 接口似乎不允許這樣做。 code of Row

    3熱度

    1回答

    目前我使用的是Cloudera的Hadoop的單節點集羣(啓用了Kerberos)。 在客戶端模式,我用下面的命令 kinit spark-submit --master yarn-client --proxy-user cloudera examples/src/main/python/pi.py 這工作正常。在集羣模式下我用下面的命令(沒有做的kinit沒有TGT是存在於高速緩存) sp