apache-spark

    1熱度

    1回答

    是否有可能從Apache Spark中的IBM GPFS(全局並行文件系統)中讀取數據? 我的目的是用這樣的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算採用的是Hortonworks數據平臺的環境。我讀過一些articles, deploying IBM Spectrum Scale File System,說你可以

    0熱度

    1回答

    我想使用spark結構化流式api讀取s3中的avro文件。你可以找到有關使用kafka的信息,但是我找不到s3的任何信息。這裏的問題是我不知道要設置什麼格式。這裏是我的簡單代碼: Dataset<Row> baseDataSet = sparkSession .readStream() .format("?") //What this format sho

    1熱度

    1回答

    我組合了兩個具有不同行數的數據幀。使用cbind.na功能組合qpcR庫組合兩個數據幀。它顯示了在我的本地機器中正確使用spark_apply功能的結果。但是,在集羣模式下,它顯示如下錯誤。 注意:單個數據框顯示集羣和本地的結果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

    1熱度

    1回答

    我在AWS一個蜂房表名爲table1僅帶有一列,它看起來像圖所示: COL1 (null) active 試圖下面查詢 select * from table1 where COL1 NOT IN ('reversed') 蜂房是返回只有一行 COL1 active 爲什麼它不返回記錄(null)? 我知道修正是修改條件如下。但我想調試這個問題,以便這不會對其他查詢 wher

    1熱度

    1回答

    我試圖使用​​在windows啓動火花的工作。 Spark應用程序工作正常,沒有指定日誌選項。 用下面--driver-java-options: --driver-java-options "-Dlog4j.configuration=file:///d:/launch/log4j-spark.properties" 我得到的錯誤信息: 該系統找不到指定的路徑。 我試過很多的組合,但沒有運氣

    1熱度

    1回答

    我有一個Dataframe,我試圖展平。作爲該過程的一部分,我想將其分解,所以如果我有一列數組,則將使用數組的每個值創建一個單獨的行。我知道我可以使用爆炸函數。但是,我有一個問題,該列包含空值,我使用火花1.6。下面是數據類型和我想要什麼的例子: 我的數據: id | ListOfRficAction| RficActionAttachment _________________________

    2熱度

    2回答

    我想要得到一個降序,並使用spark從一個csv文件中取整數爲zhvi。 但是,當我在代碼的末尾嘗試sort(desc("Zhvi"))時。它總是給我錯誤。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

    0熱度

    1回答

    我在本地運行Spark並且出現了一個奇怪的問題。基本上,我可以使用DataFrame的show()方法輸出任意數量的行,但是,當我嘗試使用count()或collect()(甚至是很少量的數據)時,Spark就會停留在該階段。永遠不會完成它的工作。我使用gradle來構建和運行。 當我運行 ./gradlew clean run 程序卡住在 > Building 83% > :run 什麼

    0熱度

    1回答

    我正在使用火花消費者(從spa‌​rk-streaming-kafka_2‌​.10版本1.6.0)。 我的火花發射器從kafka隊列偵聽5分區的消息。假設我停止了我的火花應用程序,然後根據我的配置讀取最小或最大的偏移值。但是我的Saprk應用程序應該在我停止之後讀取meesage。例如,我停止過程3.00PM,並在3.30PM啓動火花發射器。然後,我想閱讀下午3點至下午3點30分之間的所有消息。

    0熱度

    1回答

    我想在使用Hue的Oozie上運行一個簡單的python腳本。我使用的是安裝了所以我也加入了Cloudera管理器,火花的配置(火花服務高級配置片段(安全閥)的火花的conf/spark-env.sh) if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/pyth