apache-spark-1.4

    0熱度

    1回答

    我想計算同一列內兩個值之間的差異。現在我只想要最後一個值和第一個值之間的差異,但是使用last(column)會返回空值結果。 last()不會返回一個值嗎?有沒有辦法將我想要的值的位置作爲變量傳遞;例如:10日和1日,或7日和6日? Current code 使用火花1.4.0和Scala 2.11.6 myDF =由m列一些數據幀具有n行 def difference(col: Column)

    1熱度

    1回答

    我有一個LDA模型,運行在語料庫大小爲12,054個文檔,語義大小爲9,681個字和60個集羣。我試圖通過調用.topicDistributions()或.javaTopicDistributions()來獲取文檔的主題分佈。這兩種方法都會在文檔上返回一個主題分佈的rdd。根據我的理解,行數應該是文檔數量,列數應該是主題數量。但是,在調用topicDistributions()之後,當我計算rdd

    2熱度

    1回答

    當我嘗試將我的RDD寫入HDFS上的文本文件時,如下所示,出現錯誤。 val rdd = sc.textFile("/user/hadoop/dxld801/test.txt") val filtered = rdd.map({line=> line.replace("\\N","NULL")}) filtered.saveAsTextFile("hdfs:///user/hadoop/dxl

    6熱度

    3回答

    我正在使用Spark 1.4.1。 我可以使用spark-submit沒有問題。 但是,當我跑~/spark/bin/spark-shell 我得到了下面 錯誤我已經配置SPARK_HOME和JAVA_HOME。 然而,正是有了1.2 15/10/08 02:40:30 WARN NativeCodeLoader: Unable to load native-hadoop library for

    0熱度

    1回答

    我正在使用Spark獨立工作,只需要一位主人和一位工作人員進行測試。起初我使用了一個工人箱子,但現在我決定使用一個不同的工人箱子。爲此,我停止了正在運行的主設備,我更改了conf/slave文件中的IP,然後再次運行它。然而這位老工人仍在裝載。當我看到主人的8080。現在我看到奴隸既是我放置在conf/slaves文件中的新版本,也是我從conf/slaves中刪除的舊版本。 我不知道該怎麼做,並

    6熱度

    1回答

    metastore連接 我的項目有不同的HiveContext配置單元測試(有時他們是在一個文件中,因爲它們是通過特性組合。) 升級到星火1.4我遇到後很多'java.sql.SQLException:Derby的另一個實例可能已經引導了數據庫的問題,因爲補丁使這些上下文無法共享同一個元數據。因爲它不乾淨以恢復每個測試的單例狀態。我唯一的選擇就是通過終止以前的Derby Metastore連接來「

    1熱度

    1回答

    我在具有3個工作節點的羣集上運行Spark流應用程序。一旦在一段時間的工作是失敗由於以下異常: Job aborted due to stage failure: Task 0 in stage 4508517.0 failed 4 times, most recent failure: Lost task 0.3 in stage 4508517.0 (TID 1376191, 172.31.4

    25熱度

    4回答

    我有一個以String形式的列的數據框。 我想在pyspark中將列類型更改爲Double類型。 以下是這樣的,我做到了, - toDoublefunc = UserDefinedFunction(lambda x: x,DoubleType()) changedTypedf = joindf.withColumn("label",toDoublefunc(joindf['show']))