apache-spark

    3熱度

    2回答

    有兩種不同的Web UI(一種僅適用於獨立模式)。當我以獨立模式啓動Spark時,可以在端口4040上使用Web UI嗎? (例如:spark-class.cmd org.apache.spark.deploy.master.Master - web ui 8080正在工作,4040 - 沒有。)這些UI之間的主要區別是什麼? 是否可以啓動Spark(沒有hadoop,hdfs,yarn等),保持

    4熱度

    1回答

    我在蜂巢的默認數據庫中的表,並能成功地得到命令行從表中的記錄: >hive: select * from my_table; 但是當我創造火花的作業運行時,它只是throwns我的例外是這樣的: INFO metastore.HiveMetaStore: 0: get_table : db=default tbl=my_table 16/01/04 03:41:42 INFO HiveMet

    1熱度

    2回答

    我正在做一個關於使用Spark-Streaming Kafka集成的決定。 我有一個Kafka話題(我可以將它分成幾個主題),每分鐘排隊數十萬條消息,我的Spark應用程序通過應用轉換來攝取消息,然後更新UI。 知道了所有故障的處理和數據卡夫卡被複制,哪些是實施星火,以達到最佳的性能和耐用性流應用程序的最佳選擇: 一個卡夫卡的話題,一個Spark羣集。 幾個卡夫卡主題和幾個獨立的Spark盒子(每

    0熱度

    1回答

    我通過火花流應用實時異常檢測系統。 在每個流式傳輸間隔中,如果數據點是異常的,AWS SNS會發送電子郵件來訂閱帳戶。 但AWS SNS java sdk就像在火花流中不工作。下面是錯誤消息 錯誤的StreamingContext:錯誤啓動的背景下,將其標記爲停止 java.io.NotSerializableException:DSTREAM檢查點已啓用,但它們的功能DStreams不是序列 c

    3熱度

    2回答

    我使用下面的Scala代碼(如定製​​包裝)提交星火申請紗線集羣: val result = Seq(spark_submit_script_here).!! 我只有在提交時間爲​​和火花應用程序的jar(沒有SparkContext)。我想從result中捕獲applicationId,但它是空的。 信息yarn.Client適合:application_1450268755662_0110

    0熱度

    1回答

    星火版本:1.4.1 卡桑德拉版本:2.1.8 Datastax卡桑德拉連接器:1.4.2-SNAPSHOT.jar 命令我跑 ./spark- submit --jars /usr/local/src/spark-cassandra-connector/spark-cassandra-connector-java/target/scala-2.10/spark-cassandra-connect

    0熱度

    1回答

    運行GraphX ConnectedComponents試圖運行火花1.5.1火花的工作,使用以下paramters: --master "yarn" --deploy-mode "cluster" --num-executors 200 --driver-memory 14G --executor-memory 14G --executor-cores 1 試圖運行graphX S

    2熱度

    2回答

    我正在尋找一種方法來智能地比較RDD的子集。 可以說我有一個類型爲(Int-> T)的鍵/值對的RDD。我最終需要說「將鍵1的所有值與鍵2的所有值進行比較,並將鍵3的值與鍵5和鍵7的值進行比較」,我將如何有效地做到這一點? 目前我想這樣做的方法是通過創建過濾RDDS的列表,然後使用RDD.cartesian() def filterSubset[T] = (b:Int, r:RDD[(Int, T

    1熱度

    2回答

    目前我火花控制檯打印這樣的,這是不是很易讀: 我希望它打印新的一行中StructField項,使之更易於閱讀。我該怎麼辦?謝謝。 更新: 我實際上是按照這個教程(http://www.nodalpoint.com/spark-data-frames-from-csv-files-handling-headers-column-types/),作者能夠逐行打印沒有pprint。我想知道他/她是如何做

    4熱度

    1回答

    最終我想要的是列的模式,用於DataFrame中的所有列。對於其他彙總統計,我看到了一些選項:使用DataFrame聚合,或將DataFrame的列映射到矢量RDD(我也遇到麻煩),並使用MLlib中的colStats。但是我並沒有將模式看作是一種選擇。