apache-spark

1熱度

1回答

是否有可能從Apache Spark中的IBM GPFS（全局並行文件系統）中讀取數據？我的目的是用這樣的 sc.textFile("gfps://...") 代替 sc.textFile("hdfs://...") 是打算採用的是Hortonworks數據平臺的環境。我讀過一些articles, deploying IBM Spectrum Scale File System，說你可以

0熱度

1回答

使用火花結構化流式讀取s3中的avro文件

我想使用spark結構化流式api讀取s3中的avro文件。你可以找到有關使用kafka的信息，但是我找不到s3的任何信息。這裏的問題是我不知道要設置什麼格式。這裏是我的簡單代碼： Dataset<Row> baseDataSet = sparkSession .readStream() .format("?") //What this format sho

1熱度

1回答

sparklyr：spark_apply函數不能在集羣模式下工作

我組合了兩個具有不同行數的數據幀。使用cbind.na功能組合qpcR庫組合兩個數據幀。它顯示了在我的本地機器中正確使用spark_apply功能的結果。但是，在集羣模式下，它顯示如下錯誤。注意：單個數據框顯示集羣和本地的結果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

1熱度

1回答

蜂房在自動過濾NULL NOT IN條件

我在AWS一個蜂房表名爲table1僅帶有一列，它看起來像圖所示： COL1 (null) active 試圖下面查詢 select * from table1 where COL1 NOT IN ('reversed') 蜂房是返回只有一行 COL1 active 爲什麼它不返回記錄（null）？我知道修正是修改條件如下。但我想調試這個問題，以便這不會對其他查詢 wher

1熱度

1回答

如何通過log4j的配置文件，在Windows上引發提交？

我試圖使用在windows啓動火花的工作。 Spark應用程序工作正常，沒有指定日誌選項。用下面--driver-java-options： --driver-java-options "-Dlog4j.configuration=file:///d:/launch/log4j-spark.properties" 我得到的錯誤信息：該系統找不到指定的路徑。我試過很多的組合，但沒有運氣

1熱度

1回答

Spark 1.6以空值爆炸

我有一個Dataframe，我試圖展平。作爲該過程的一部分，我想將其分解，所以如果我有一列數組，則將使用數組的每個值創建一個單獨的行。我知道我可以使用爆炸函數。但是，我有一個問題，該列包含空值，我使用火花1.6。下面是數據類型和我想要什麼的例子：我的數據： id | ListOfRficAction| RficActionAttachment _________________________

2熱度

2回答

如何把avg降序？

我想要得到一個降序，並使用spark從一個csv文件中取整數爲zhvi。但是，當我在代碼的末尾嘗試sort(desc("Zhvi"))時。它總是給我錯誤。 from pyspark.sql.functions import col, desc stateByZhvi = home.select('State','Zhvi').groupBy((col("State"))).avg("Zhvi"

0熱度

1回答

show（）/ count（）永遠不會完成while show（）快速運行

我在本地運行Spark並且出現了一個奇怪的問題。基本上，我可以使用DataFrame的show（）方法輸出任意數量的行，但是，當我嘗試使用count（）或collect（）（甚至是很少量的數據）時，Spark就會停留在該階段。永遠不會完成它的工作。我使用gradle來構建和運行。當我運行 ./gradlew clean run 程序卡住在 > Building 83% > :run 什麼

0熱度

1回答

Apache Spark Time基於Kafka off set

我正在使用火花消費者（從spa‌rk-streaming-kafka_2‌.10版本1.6.0）。我的火花發射器從kafka隊列偵聽5分區的消息。假設我停止了我的火花應用程序，然後根據我的配置讀取最小或最大的偏移值。但是我的Saprk應用程序應該在我停止之後讀取meesage。例如，我停止過程3.00PM，並在3.30PM啓動火花發射器。然後，我想閱讀下午3點至下午3點30分之間的所有消息。

0熱度

1回答

在oozie中添加pyspark python路徑

我想在使用Hue的Oozie上運行一個簡單的python腳本。我使用的是安裝了所以我也加入了Cloudera管理器，火花的配置（火花服務高級配置片段（安全閥）的火花的conf/spark-env.sh） if [ -z "${PYSPARK_PYTHON}" ]; then export PYSPARK_PYTHON=/opt/cloudera/parcels/Anaconda/bin/pyth