apache-spark-2.0

0熱度

1回答

我試圖訪問Spark中的wasb（Azure blob存儲）文件並需要指定帳戶密鑰。如何在spark-env.sh文件中指定帳戶？ fs.azure.account.key.test.blob.core.windows.net EC5sNg3qGN20qqyyr2W1xUo5qApbi/zxkmHMo5JjoMBmuNTxGNz+/sF9zPOuYA== 當我嘗試這一點，引發以下錯

0熱度

1回答

爲什麼在spark作業服務器中不支持帶有namedObject的sparkSession？

我想用spark工作服務器API（for spark 2.2.0）構建一個應用程序。但是我發現用sparkSession不支持namedObject。我的樣子： import com.typesafe.config.Config import org.apache.spark.sql.SparkSession import org.apache.spark.storage.StorageLe

-1熱度

1回答

當通過列列表映射時返回兩列Spark SQL Scala

我想以編程方式給出一定數量的字段，並且對於某些字段，選擇一個列並將該字段傳遞給另一個函數，該函數將返回一個字符串case類，字符串。到目前爲止，我有 val myList = Seq(("a", "b", "c", "d"), ("aa", "bb", "cc","dd")) val df = myList.toDF("col1","col2","col3","col4") val fie

0熱度

1回答

同時運行多個Hive查詢時的節點驅動程序OutOfMemory

我們使用Spark2 Thrift來運行Hive查詢。節儉作爲HDP 2.6的一部分，我們的火花版本是2.1.0.2.6.0.3-8。我們同時運行的查詢越多，我們在驅動程序中遇到的OOM就越快。這些查詢還包含JOIN和UNION。從jstat似乎沒有內存泄漏，但是無論給驅動程序多少內存，它似乎是永遠不夠的。更多的查詢同時運行，更快的Thrift驅動程序開始執行完整的GC直到它崩潰，因爲完整的

1熱度

1回答

java.lang.IllegalStateException：讀取增量文件時出錯，使用kafka進行火花結構化流式傳輸

我在我們的項目中使用結構化流式傳輸+ Kafka進行實時數據分析。我正在使用Spark 2.2，kafka 0.10.2。我在應用程序啓動時從檢查點進行流式查詢恢復期間遇到問題。由於有多個流式查詢來自單個kafka流式點，並且每個流式查詢都有不同的checkpint目錄。因此，如果作業失敗，當我們重新啓動作業時，會有一些流式查詢無法從檢查點位置恢復，因此會拋出錯誤讀取增量文件時出錯。下面是日誌：

5熱度

1回答

jsontostructs在火花結構流

我使用的Spark 2.2，我想讀卡夫卡的JSON消息行，它們變換爲DataFrame並將它們作爲一個：這個我 spark .readStream() .format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topic")

0熱度

2回答

Spark作業第一次嘗試失敗連接到oracle

我們正在運行連接到oracle並獲取一些數據的spark作業。始終嘗試0或1的JDBCRDD任務失敗，出現以下錯誤。在隨後的嘗試任務完成。正如幾個門戶網站中所建議的，我們甚至用-Djava.security.egd = file：/// dev/urandom java選項嘗試過，但它沒有解決問題。有人可以幫助我們解決這個問題。 ava.sql.SQLRecoverableException: I

0熱度

1回答

星火電子病歷「超出內存限制」可用於檢查點/緩存工作

是我緩存的理解錯了嗎？在我所有的轉換之後，得到的RDD非常小，比如1GB。它計算的數據非常大，大小約700 GB。我要運行的邏輯閱讀成千上萬的相當大的文件，所有計算小得多導致RDD。每次迭代都會處理下一批400個文件，這些文件在讀入時可能會炸燬大約700 GB的大小。傳入的RDD以相同的方式進行處理（讀取和轉換），然後與積累的RDD合併。 I 緩存和檢查點每次迭代後（也是非運行（阻塞= true

0熱度

1回答

Spark數據集或數據框聚合

我們有一個Spark版本2.0的MapR羣集我們試圖測量當前在TEZ引擎上運行的Hive查詢的性能差異，然後在Spark-sql上運行它，只需編寫在.hql文件中查詢sql查詢，然後通過shell文件調用它。查詢中包含很多Join，這些Join肯定會創建多個階段，並且在這種情況下將會發生混洗，那麼最合適的選擇是什麼？這是真的，數據集，星火比Dataframes較慢像GROUPBY，最大值，最

1熱度

1回答

獲取分區拼花地圖數據框的最新模式

我們正在開始使用spark和parquet文件在hadoop集羣中收集數據......但是我們很難保證拼花圖案模式將來不會發生變化。我們試圖找到閱讀檢察院，即使架構改變的最佳途徑...... 我們要實現的規則是，最新的實木複合地板的文件將成爲我們的參考... 我們做了不同的測試，包括： spark.read.parquet（「測試」）過濾器（「年2017年=和月= 10和天> = 15」） s