apache-spark

    0熱度

    4回答

    我最近在學Spark,但我對Spark配置有點困惑。 AFAIK,至少有3種方式配置: 環境變量,http://spark.apache.org/docs/latest/spark-standalone.html 的命令行參數,如./bin/spark-submit --class <main-class> --master xxx --deploy-mode xxx --conf key=val

    3熱度

    2回答

    在Spark中,我們使用廣播變量使每臺機器只讀取一個變量的副本。我們通常在閉包之外創建一個廣播變量(如閉包所需的查找表)以提高性能。我們也有一個名爲mapPartitions的spark轉換運算符,它試圖實現相同的功能(使用共享變量來提高性能)。例如,在mapPartitions中,我們可以爲每個分區共享一個數據庫連接。 那麼這兩者有什麼區別?我們可以互換使用它只是爲了共享變量嗎?

    2熱度

    1回答

    我的火花羣集中運行的信息是 15/12/29 17時45分33秒INFO BlockManagerMasterEndpoint:註冊塊 經理10.108.98.123:51075與530.3 MB RAM,BlockManagerId (8, 10.108.98.123,51075 如何修改530.3MB至20G條或10g? 我必須做的代碼是 conf = SparkConf().set("spa

    0熱度

    1回答

    我想在rdd.foreach方法中使用Spring JMSTemplate類,但我得到任務不可序列化的錯誤。 當我嘗試使用靜態變量它在本地工作,但在集羣中,我得到空指針異常。 示例代碼: inputRDD.foreach(record -> { messageServices.send(record); } 錯誤日誌: org.apache.spark.SparkExce

    13熱度

    3回答

    我正在使用pyspark(Python 2.7.9/Spark 1.3.1)並且有一個數據框GroupObject,我需要按降序排列&排序。試圖通過這段代碼實現它。 group_by_dataframe.count().filter("`count` >= 10").sort('count', ascending=False) 但它會引發以下錯誤。 sort() got an unexpect

    1熱度

    1回答

    我在Windows上安裝了本地火花1.5.2(hadoop 2.4)安裝,解釋here。 我想導入我使用maven在jar中創建的jar文件(jar是jmatrw,我上傳到github上的here)。請注意,該jar不包含spark程序,並且它沒有依賴關係來觸發。我嘗試以下步驟,但似乎沒有人在我的安裝工作: 我「E複製庫:/installprogram/spark-1.5.2-bin-hadoop

    1熱度

    1回答

    我一直在使用Spark遇到過一個又一個問題,我相信它有一些與網絡或權限或兩者兼有的問題。主或日誌中沒有任何內容或拋出的錯誤會提示問題。 15/12/29 19:19:58 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers a

    2熱度

    2回答

    我已經給出了示例表。我想從「價值」列中獲取每個組「源」列的中位數。凡 源列是字符串數據類型的 值列是雙數據類型的 scala> sqlContext.sql("SELECT * from tTab order by source").show +---------------+-----+ | Source|value| +---------------+-

    0熱度

    2回答

    我想要做一些IP對火花的位置計算,探索網後,發現IPLocator https://github.com/miraclesu/IPLocator, 的IP來定位需要使用其中包含的映射信息的文件。 打包jar之後,我可以通過使用本地java來運行它,包只是在IPLocator.jar和qqwry.dat在同一個目錄下運行。 但是我想使用這個jar使用spark,我試着在啓動spark-shell的時

    3熱度

    1回答

    我想創造一些元組共生矩陣一共生矩陣,見下圖: val rdd = sc.parallelize(Array( Array("101","103","105"), Array("102","105"),Array("101","102","103","105")) val coocMatrix = new ArrayBuffer[(String, Int)]() // map rdd