apache-spark-1.5

    0熱度

    1回答

    我正在爲自定義數據源(屬性文件)實現spark(1.5.2)sql RelationProvider。 有人可以解釋一下自動推理算法應該如何實現嗎?

    0熱度

    1回答

    我創建了一個包含5個分區的Kafka主題。我正在使用如下所示的createStream接收器API。但不知何故,只有一個接收器獲取輸入數據。其餘的接收器沒有任何處理。你能幫忙嗎? JavaPairDStream<String, String> messages = null; if(sparkStreamCount > 0){ // We create an inp

    1熱度

    1回答

    我使用Spark 1.5。 我很努力地處理名稱中包含點(例如param.x.y)的列。我首先遇到了選擇它們的問題,但後來我發現我需要使用`character(`param.x.y`)。 現在我在嘗試重命名列時遇到了問題。我使用類似的方法,但它似乎不工作: df.withColumnRenamed("`param.x.y`", "param_x_y") 所以我想檢查 - 這真的是一個bug,還是

    2熱度

    1回答

    Supossed我有一個管道像這樣使用CrossValidator培訓NaiveBayes模型得到精密/召回: val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("wo

    1熱度

    2回答

    我在Spark中使用了MongoDB,因此依賴於mongo-hadoop驅動程序。感謝在我原來的問題here上的輸入,我得到了一些工作。 我的Spark工作正在運行,但是,我收到警告,我不明白。當我運行此命令 $SPARK_HOME/bin/spark-submit --driver-class-path /usr/local/share/mongo-hadoop/build/libs/mongo

    0熱度

    1回答

    我已經下載了Spark-1.6.1版本。它已經爲我的hadoop 2.6版本而構建,所以我只需要解壓縮它,並且永遠不要混淆構建的工具。在我的核心site.xml文件我寫 <configuration> <property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> </property> <pro

    0熱度

    2回答

    鑑於dataframes df_a和df_b,我怎麼能達到同樣的效果左排除加盟: SELECT df_a.* FROM df_a LEFT JOIN df_b ON df_a.id = df_b.id WHERE df_b.id is NULL 我已經試過: df_a.join(df_b, df_a("id")===df_b("id"), "left") .s

    4熱度

    2回答

    這可能是一個非常簡單的問題。但有沒有簡單的方法來測量火花作業的執行時間(使用​​提交)? 這將幫助我們根據輸入數據的大小來分析火花作業。 編輯:我使用http://[driver]:4040來監視我的工作,但是這個Web UI在我的工作完成的時候關閉。

    2熱度

    2回答

    我有一個3節點spark獨立羣集,在主節點上我也有一個worker。當我向集羣提交應用程序時,其他兩名工作人員開始RUNNING,但主節點上的工作人員保持LOADING狀態,最終在另一臺機器上啓動另一個工作人員。 在同一個節點上有工人和主人是問題嗎? 如果是的話,有沒有辦法解決這個問題,或者我不應該有一個工人和一個主人在同一個節點上? P.S.這些機器每個都有8個核心,工作人員設置爲使用7而不是所

    0熱度

    1回答

    我有一個運行Hadoop和Spark-1.5.2的3個macOS機器集羣(儘管Spark-2.0.0存在同樣的問題)。使用'yarn'作爲Spark主URL時,我遇到了一個奇怪的問題,即任務只分配給3臺機器中的2臺。 基於Hadoop儀表板(主站上的端口8088),顯然所有3個節點都是集羣的一部分。但是,我運行的任何Spark作業僅使用2個執行程序。 例如這裏是在JavaWordCount例的冗長