apache-spark

2熱度

2回答

我正在使用Spark 1.5.2和Java API。有沒有辦法爲每個文檔創建一個包含單詞計數的DataFrame，併爲每個文檔在單個行中包含所有單詞和計數？到目前爲止，我已經能夠使用「org.apache.spark.sql.functions.explode」將文檔文本中的每個單詞轉換爲新的行。我就能夠創建一個使用下面的代碼包含多行，每一行的文件，字和字計數一個新的數據框： df = d

0熱度

1回答

從Spark（scala）獲取結果並將其傳遞給另一個進程

一般情況下，如何從一個spark任務中提取結果而不需要輸出文件？讓我說，我有一個scala程序，它創建一個火花發射器的工作。我可以用Futures包裝這個火花工作。一旦完成了火花工作，我怎樣才能得到結果？（1種方式，我之前做過的是將結果寫入文件，然後外部scala程序讀取文件< - 我想避免這種策略）

0熱度

2回答

將文件保存在Spark中

RDD上有兩個操作要保存。一個是saveAsTextFile，另一個是saveAsObjectFile。我瞭解saveAsTextFile，但不懂saveAsObjectFile。我是Spark和Scala的新手，因此我對saveAsObjectFile很好奇。它是來自Hadoop的序列文件還是不同的東西？我可以讀取使用Map Reduce使用saveAsObjectFile生成的文件嗎？如果是

-1熱度

2回答

不同的火花輸入和輸出格式

在Spark中開箱即用支持哪些不同的輸入和輸出格式？ Map Reduce支持其中的很多，但我在Spark中只看到textFile和objectFile。另外我怎樣才能在Spark中利用Hadoop輸入/輸出格式？

0熱度

1回答

加入Spark中的數據集

Spark中加入數據的不同方式有哪些？ Hadoop map reduce提供了分佈式緩存，地圖邊連接和減少邊連接。 Spark呢？另外，如果您可以提供簡單的scala和python代碼來連接Spark中的數據集，那將會很棒。

2熱度

2回答

Spark +德魯伊寧靜 - 圖書館版本衝突

當我用Druid Tranquility運行一個火花作業時出現以下錯誤。 java.lang.NoSuchFieldError: WRITE_DURATIONS_AS_TIMESTAMPS 德魯伊寧靜使用更高版本的傑克遜 - 數據綁定（2.6.1）比什麼是火花捆綁。我正在使用最新的穩定版本的Druid Tranquility（0.6.4）和Spark（1.5.2）。如何解決這個問題？強制

0熱度

2回答

如何引用執行spark-submit的本地文件系統？

當在簇中處理時，是否可以將驅動程序節點中的spark程序結果的輸出寫入？ df = sqlContext("hdfs://....") result = df.groupby('abc','cde').count() result.write.save("hdfs:...resultfile.parquet", format="parquet") # this works fine res

3熱度

2回答

MongoDB和Spark中的連接太多

My Spark Streaming應用程序將數據存儲在MongoDB中。不幸的是每個星火工人打開太多的連接，同時將其存儲在MongoDB中以下是我的代碼星火 - 蒙戈DB代碼： public static void main(String[] args) { int numThreads = Integer.parseInt(args[3]); String mongo

2熱度

1回答

如何將最新的100行從Hbase加載到Spark

我正在使用Spark將Hbase數據加載到JavaPairRDD <>中。現在，我想知道我是否可以將最新的100行加載到Spark中而不是來自Hbase的所有行。 1）我嘗試scan.setCaching（100），但它仍然返回所有行。是否爲了限制我從Hbase加載的行？ 2）我怎樣才能確保它是最新的100行任何想法？非常感謝。 Scan scan = new Scan(); scan

3熱度

3回答

如何在使用Java中的newAPIHadoopRDD讀取MongoDB集合之後停止線程？

我正在使用Java中的newAPIHadoopRDD來讀取MongoDB集合。首先，我創建使用下面的類JavaSparkContext對象： public class SparkLauncher { public JavaSparkContext javaSparkContext ; public SparkLauncher() { javaSpark