apache-spark

3熱度

2回答

有兩種不同的Web UI（一種僅適用於獨立模式）。當我以獨立模式啓動Spark時，可以在端口4040上使用Web UI嗎？（例如：spark-class.cmd org.apache.spark.deploy.master.Master - web ui 8080正在工作，4040 - 沒有。）這些UI之間的主要區別是什麼？是否可以啓動Spark（沒有hadoop，hdfs，yarn等），保持

4熱度

1回答

星火工作沒找到表蜂巢數據庫

我在蜂巢的默認數據庫中的表，並能成功地得到命令行從表中的記錄： >hive: select * from my_table; 但是當我創造火花的作業運行時，它只是throwns我的例外是這樣的： INFO metastore.HiveMetaStore: 0: get_table : db=default tbl=my_table 16/01/04 03:41:42 INFO HiveMet

1熱度

2回答

Spark Streaming和Kafka：一個或多個獨立的盒子？

我正在做一個關於使用Spark-Streaming Kafka集成的決定。我有一個Kafka話題（我可以將它分成幾個主題），每分鐘排隊數十萬條消息，我的Spark應用程序通過應用轉換來攝取消息，然後更新UI。知道了所有故障的處理和數據卡夫卡被複制，哪些是實施星火，以達到最佳的性能和耐用性流應用程序的最佳選擇：一個卡夫卡的話題，一個Spark羣集。幾個卡夫卡主題和幾個獨立的Spark盒子（每

0熱度

1回答

AWS SNS SDK不適用於火花流傳輸

我通過火花流應用實時異常檢測系統。在每個流式傳輸間隔中，如果數據點是異常的，AWS SNS會發送電子郵件來訂閱帳戶。但AWS SNS java sdk就像在火花流中不工作。下面是錯誤消息錯誤的StreamingContext：錯誤啓動的背景下，將其標記爲停止 java.io.NotSerializableException：DSTREAM檢查點已啓用，但它們的功能DStreams不是序列 c

3熱度

2回答

如何將Spark應用程序的applicationId部署到Scala的YARN中？

我使用下面的Scala代碼（如定製包裝）提交星火申請紗線集羣： val result = Seq(spark_submit_script_here).!! 我只有在提交時間爲和火花應用程序的jar（沒有SparkContext）。我想從result中捕獲applicationId，但它是空的。信息yarn.Client適合：application_1450268755662_0110

0熱度

1回答

爲什麼在Cassandra連接器放入-jars時spark-submit失敗，並顯示「無法裝載數據源的類：org.apache.spark.sql.cassandra」？

星火版本：1.4.1 卡桑德拉版本：2.1.8 Datastax卡桑德拉連接器：1.4.2-SNAPSHOT.jar 命令我跑 ./spark- submit --jars /usr/local/src/spark-cassandra-connector/spark-cassandra-connector-java/target/scala-2.10/spark-cassandra-connect

0熱度

1回答

無法在火花1.5.1大數據（〜4TB）

運行GraphX ConnectedComponents試圖運行火花1.5.1火花的工作，使用以下paramters： --master "yarn" --deploy-mode "cluster" --num-executors 200 --driver-memory 14G --executor-memory 14G --executor-cores 1 試圖運行graphX S

2熱度

2回答

比較RDD的子集

我正在尋找一種方法來智能地比較RDD的子集。可以說我有一個類型爲（Int-> T）的鍵/值對的RDD。我最終需要說「將鍵1的所有值與鍵2的所有值進行比較，並將鍵3的值與鍵5和鍵7的值進行比較」，我將如何有效地做到這一點？目前我想這樣做的方法是通過創建過濾RDDS的列表，然後使用RDD.cartesian（） def filterSubset[T] = (b:Int, r:RDD[(Int, T

1熱度

2回答

如何讓Spark輸出在單獨的新行上打印？

目前我火花控制檯打印這樣的，這是不是很易讀：我希望它打印新的一行中StructField項，使之更易於閱讀。我該怎麼辦？謝謝。更新：我實際上是按照這個教程（http://www.nodalpoint.com/spark-data-frames-from-csv-files-handling-headers-column-types/），作者能夠逐行打印沒有pprint。我想知道他/她是如何做

4熱度

1回答

計算PySpark DataFrame列的模式？

最終我想要的是列的模式，用於DataFrame中的所有列。對於其他彙總統計，我看到了一些選項：使用DataFrame聚合，或將DataFrame的列映射到矢量RDD（我也遇到麻煩），並使用MLlib中的colStats。但是我並沒有將模式看作是一種選擇。