apache-spark

    1熱度

    1回答

    我正在用spark.wholeTextFiles()處理一個400MB的文件,並且我一直收到內存不足錯誤。我第一次使用這個API的文件夾總共有40MB,我想知道我的代碼是否適用於大文件,這是大文件的來源。 這是配置,我想我提供了足夠的RAM堆,但仍然沒有運氣,我只是閱讀的文件夾,然後寫下來與 files.saveAsTextFile("data/output/no") 和命令是 spark-s

    0熱度

    1回答

    我的主火花項目對其他utils的依賴jars.So集組合的可能是這樣的: 1. main_spark-1.0.jar will work with utils_spark-1.0.jar (some jobs use this set) 2. main_spark-2.0.jar will work with utils_spark-2.0.jar (and some of the jobs u

    0熱度

    1回答

    ETL作業完成後,在AWS Glue腳本中調用存儲過程的最佳方式是什麼? 我使用PySpark從S3獲取數據並存儲在臨時表中。在這個過程之後,需要調用一個存儲過程。該存儲過程將數據從臨時表加載到相應的MDS表中。 如果我必須在ETL作業完成後調用存儲過程,那麼最好的方法是什麼?如果我考慮AWS lambda,有沒有什麼方法可以在ETL之後通知lambda。

    1熱度

    2回答

    我有一個表包含一列「年齡」。我想根據他們的年齡分組人羣,EX:[0,5],[5,10],[10,15],... 然後我會爲每個組做同樣的計算並比較結果。 這樣做的目標是查看年齡是否與其他變量有關。 請幫忙。

    1熱度

    2回答

    我有2個數據框df1和df2。 df1有1個字符串類型的列鍵 df1.show() key ---- k1 k2 k3 df2 has 2 columns df2.show() topic | keys ------------- t1 | [k1, k2] t2 | [pk1, pk2] 我想在df2.key中存在df1.key時加入2個數據幀。我看到以前的例

    0熱度

    1回答

    讀取Spark文檔的第一個函數,它提到ignoreNulls會得到第一個非空值。 import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ import org.apache.spark.sql.expressions.{Window, WindowSpec} object tmp {

    0熱度

    1回答

    我正在加載幾個Oracle表格到蜂巢,它似乎正在工作,但2表格正在出錯 - IllegalArgumentException: requirement failed: Decimal precision 136 exceeds max precision 38 我檢查了Oracle表格,並沒有與十進制(136)精度的列,在來源中。 這裏是spark-shell星火/ Scala代碼: val df

    0熱度

    1回答

    感激,如果有人可以在下面的代碼片段問題提供一些線索現在 lineStr= sc.textFile("/input/words.txt") print (lineStr.collect()) ['this file is created to count the no of texts', 'other wise i am just doing fine', 'lets see the outp

    1熱度

    1回答

    只選擇每n個元素減少星火據幀的大小 I V有一個org.apache.spark.sql.Dataframe = [t: double, S: long] 現在我想通過每2元,以減少據幀,與val n=2 結果應該是 你會如何解決這個問題? 我嘗試了插入第三列並使用模,但我無法解決它。

    0熱度

    1回答

    我想了解Spark中的分區。 我在Windows 10本地模式下運行spark。 我的筆記本電腦有2個物理內核和4個邏輯內核。 1 /術語:對我來說,spark =核心線程。所以Spark中的核心與物理核心不同,對吧? Spark核心與任務相關聯,對嗎? 如果是這樣,因爲你需要一個分區線程,如果我的sparksql數據框有4個分區,它需要4個線程嗎? 2 /如果我有4個邏輯內核,是否意味着我只能在