apache-spark-1.5

0熱度

1回答

我正在爲自定義數據源（屬性文件）實現spark（1.5.2）sql RelationProvider。有人可以解釋一下自動推理算法應該如何實現嗎？

0熱度

1回答

我創建了一個包含5個分區的Kafka主題。我正在使用如下所示的createStream接收器API。但不知何故，只有一個接收器獲取輸入數據。其餘的接收器沒有任何處理。你能幫忙嗎？ JavaPairDStream<String, String> messages = null; if(sparkStreamCount > 0){ // We create an inp

1熱度

1回答

如何重命名帶有點的列？

我使用Spark 1.5。我很努力地處理名稱中包含點（例如param.x.y）的列。我首先遇到了選擇它們的問題，但後來我發現我需要使用`character（`param.x.y`）。現在我在嘗試重命名列時遇到了問題。我使用類似的方法，但它似乎不工作： df.withColumnRenamed("`param.x.y`", "param_x_y") 所以我想檢查 - 這真的是一個bug，還是

2熱度

1回答

如何使用的Spark

Supossed我有一個管道像這樣使用CrossValidator培訓NaiveBayes模型得到精密/召回： val tokenizer = new Tokenizer().setInputCol("tweet").setOutputCol("words") val hashingTF = new HashingTF().setNumFeatures(1000).setInputCol("wo

1熱度

2回答

通過spark-submit將其他罐子傳遞給Spark

我在Spark中使用了MongoDB，因此依賴於mongo-hadoop驅動程序。感謝在我原來的問題here上的輸入，我得到了一些工作。我的Spark工作正在運行，但是，我收到警告，我不明白。當我運行此命令 $SPARK_HOME/bin/spark-submit --driver-class-path /usr/local/share/mongo-hadoop/build/libs/mongo

0熱度

1回答

無法在Spark中使用HDFS中的文件

我已經下載了Spark-1.6.1版本。它已經爲我的hadoop 2.6版本而構建，所以我只需要解壓縮它，並且永遠不要混淆構建的工具。在我的核心site.xml文件我寫 <configuration> <property> <name>hadoop.tmp.dir</name> <value>/app/hadoop/tmp</value> </property> <pro

0熱度

2回答

星火SQL 1.5.2：左排除加入

鑑於dataframes df_a和df_b，我怎麼能達到同樣的效果左排除加盟： SELECT df_a.* FROM df_a LEFT JOIN df_b ON df_a.id = df_b.id WHERE df_b.id is NULL 我已經試過： df_a.join(df_b, df_a("id")===df_b("id"), "left") .s

4熱度

2回答

Spark工作執行時間

這可能是一個非常簡單的問題。但有沒有簡單的方法來測量火花作業的執行時間（使用提交）？這將幫助我們根據輸入數據的大小來分析火花作業。編輯：我使用http://[driver]:4040來監視我的工作，但是這個Web UI在我的工作完成的時候關閉。

2熱度

2回答

我可以在同一個節點上有主人和工人嗎？

我有一個3節點spark獨立羣集，在主節點上我也有一個worker。當我向集羣提交應用程序時，其他兩名工作人員開始RUNNING，但主節點上的工作人員保持LOADING狀態，最終在另一臺機器上啓動另一個工作人員。在同一個節點上有工人和主人是問題嗎？如果是的話，有沒有辦法解決這個問題，或者我不應該有一個工人和一個主人在同一個節點上？ P.S.這些機器每個都有8個核心，工作人員設置爲使用7而不是所

0熱度

1回答

Hadoop上的Spark YARN - 執行器丟失

我有一個運行Hadoop和Spark-1.5.2的3個macOS機器集羣（儘管Spark-2.0.0存在同樣的問題）。使用'yarn'作爲Spark主URL時，我遇到了一個奇怪的問題，即任務只分配給3臺機器中的2臺。基於Hadoop儀表板（主站上的端口8088），顯然所有3個節點都是集羣的一部分。但是，我運行的任何Spark作業僅使用2個執行程序。例如這裏是在JavaWordCount例的冗長