apache-spark-2.0

    0熱度

    1回答

    我試圖訪問Spark中的wasb(Azure blob存儲)文件並需要指定帳戶密鑰。 如何在spark-env.sh文件中指定帳戶? fs.azure.account.key.test.blob.core.windows.net EC5sNg3qGN20qqyyr2W1xUo5qApbi/zxkmHMo5JjoMBmuNTxGNz+/sF9zPOuYA== 當我嘗試這一點,引發以下錯

    0熱度

    1回答

    我想用spark工作服務器API(for spark 2.2.0)構建一個應用程序。但是我發現用sparkSession不支持namedObject。 我的樣子: import com.typesafe.config.Config import org.apache.spark.sql.SparkSession import org.apache.spark.storage.StorageLe

    -1熱度

    1回答

    我想以編程方式給出一定數量的字段,並且對於某些字段,選擇一個列並將該字段傳遞給另一個函數,該函數將返回一個字符串case類,字符串。到目前爲止,我有 val myList = Seq(("a", "b", "c", "d"), ("aa", "bb", "cc","dd")) val df = myList.toDF("col1","col2","col3","col4") val fie

    0熱度

    1回答

    我們使用Spark2 Thrift來運行Hive查詢。 節儉作爲HDP 2.6的一部分,我們的火花版本是2.1.0.2.6.0.3-8。 我們同時運行的查詢越多,我們在驅動程序中遇到的OOM就越快。這些查詢還包含JOIN和UNION。 從jstat似乎沒有內存泄漏,但是無論給驅動程序多少內存,它似乎是永遠不夠的。更多的查詢同時運行,更快的Thrift驅動程序開始執行完整的GC直到它崩潰,因爲完整的

    1熱度

    1回答

    我在我們的項目中使用結構化流式傳輸+ Kafka進行實時數據分析。我正在使用Spark 2.2,kafka 0.10.2。 我在應用程序啓動時從檢查點進行流式查詢恢復期間遇到問題。由於有多個流式查詢來自單個kafka流式點,並且每個流式查詢都有不同的checkpint目錄。因此,如果作業失敗,當我們重新啓動作業時,會有一些流式查詢無法從檢查點位置恢復,因此會拋出錯誤讀取增量文件時出錯。下面是日誌:

    5熱度

    1回答

    我使用的Spark 2.2,我想讀卡夫卡的JSON消息行,它們變換爲DataFrame並將它們作爲一個:這個我 spark .readStream() .format("kafka") .option("kafka.bootstrap.servers", "localhost:9092") .option("subscribe", "topic")

    0熱度

    2回答

    我們正在運行連接到oracle並獲取一些數據的spark作業。始終嘗試0或1的JDBCRDD任務失敗,出現以下錯誤。在隨後的嘗試任務完成。正如幾個門戶網站中所建議的,我們甚至用-Djava.security.egd = file:/// dev/urandom java選項嘗試過,但它沒有解決問題。有人可以幫助我們解決這個問題。 ava.sql.SQLRecoverableException: I

    0熱度

    1回答

    是我緩存的理解錯了嗎?在我所有的轉換之後,得到的RDD非常小,比如1GB。它計算的數據非常大,大小約700 GB。 我要運行的邏輯閱讀成千上萬的相當大的文件,所有計算小得多導致RDD。每次迭代都會處理下一批400個文件,這些文件在讀入時可能會炸燬大約700 GB的大小。傳入的RDD以相同的方式進行處理(讀取和轉換),然後與積累的RDD合併。 I 緩存和檢查點每次迭代後(也是非運行(阻塞= true

    0熱度

    1回答

    我們有一個Spark版本2.0的MapR羣集 我們試圖測量當前在TEZ引擎上運行的Hive查詢的性能差異,然後在Spark-sql上運行它,只需編寫在.hql文件中查詢sql查詢,然後通過shell文件調用它。 查詢中包含很多Join,這些Join肯定會創建多個階段,並且在這種情況下將會發生混洗,那麼最合適的選擇是什麼? 這是真的,數據集,星火比Dataframes較慢像GROUPBY,最大值,最

    1熱度

    1回答

    我們正在開始使用spark和parquet文件在hadoop集羣中收集數據......但是我們很難保證拼花圖案模式將來不會發生變化。我們試圖找到閱讀檢察院,即使架構改變的最佳途徑...... 我們要實現的規則是,最新的實木複合地板的文件將成爲我們的參考... 我們做了不同的測試,包括: spark.read.parquet( 「測試」)過濾器( 「年2017年=和月= 10和天> = 15」) s