apache-spark-1.4

0熱度

1回答

我想計算同一列內兩個值之間的差異。現在我只想要最後一個值和第一個值之間的差異，但是使用last（column）會返回空值結果。 last（）不會返回一個值嗎？有沒有辦法將我想要的值的位置作爲變量傳遞;例如：10日和1日，或7日和6日？ Current code 使用火花1.4.0和Scala 2.11.6 myDF =由m列一些數據幀具有n行 def difference(col: Column)

1熱度

1回答

Spark 1.4 Mllib LDA topicDistributions（）返回錯誤的文檔數

我有一個LDA模型，運行在語料庫大小爲12,054個文檔，語義大小爲9,681個字和60個集羣。我試圖通過調用.topicDistributions（）或.javaTopicDistributions（）來獲取文檔的主題分佈。這兩種方法都會在文檔上返回一個主題分佈的rdd。根據我的理解，行數應該是文檔數量，列數應該是主題數量。但是，在調用topicDistributions（）之後，當我計算rdd

2熱度

1回答

無法使用saveAsTextFile將RDD [String]保存爲文本文件

當我嘗試將我的RDD寫入HDFS上的文本文件時，如下所示，出現錯誤。 val rdd = sc.textFile("/user/hadoop/dxld801/test.txt") val filtered = rdd.map({line=> line.replace("\\N","NULL")}) filtered.saveAsTextFile("hdfs:///user/hadoop/dxl

6熱度

3回答

無法啓動火花外殼

我正在使用Spark 1.4.1。我可以使用spark-submit沒有問題。但是，當我跑~/spark/bin/spark-shell 我得到了下面錯誤我已經配置SPARK_HOME和JAVA_HOME。然而，正是有了1.2 15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hadoop library for

0熱度

1回答

Spark工人節點已移除但未消失

我正在使用Spark獨立工作，只需要一位主人和一位工作人員進行測試。起初我使用了一個工人箱子，但現在我決定使用一個不同的工人箱子。爲此，我停止了正在運行的主設備，我更改了conf/slave文件中的IP，然後再次運行它。然而這位老工人仍在裝載。當我看到主人的8080。現在我看到奴隸既是我放置在conf/slaves文件中的新版本，也是我從conf/slaves中刪除的舊版本。我不知道該怎麼做，並

6熱度

1回答

在Apache中星火SQL，如何關閉從HiveContext

metastore連接我的項目有不同的HiveContext配置單元測試（有時他們是在一個文件中，因爲它們是通過特性組合。）升級到星火1.4我遇到後很多'java.sql.SQLException：Derby的另一個實例可能已經引導了數據庫的問題，因爲補丁使這些上下文無法共享同一個元數據。因爲它不乾淨以恢復每個測試的單例狀態。我唯一的選擇就是通過終止以前的Derby Metastore連接來「

1熱度

1回答

Spark：DecoderException：java.lang.OutOfMemoryError

我在具有3個工作節點的羣集上運行Spark流應用程序。一旦在一段時間的工作是失敗由於以下異常： Job aborted due to stage failure: Task 0 in stage 4508517.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4508517.0 (TID 1376191, 172.31.4

25熱度

4回答

如何將字符串類型中的Dataframe列更改爲pyspark中的Double類型

我有一個以String形式的列的數據框。我想在pyspark中將列類型更改爲Double類型。以下是這樣的，我做到了， - toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show']))