apache-spark

    2熱度

    2回答

    我正在使用Spark 1.5.2和Java API。有沒有辦法爲每個文檔創建一個包含單詞 計數的DataFrame,併爲每個文檔在單個行中包含所有單詞和計數? 到目前爲止,我已經能夠使用「org.apache.spark.sql.functions.explode」將文檔文本中的每個單詞 轉換爲新的行。 我就能夠創建一個使用下面的代碼包含多行,每一行的文件,字和字計數一個新的數據框: df = d

    0熱度

    1回答

    一般情況下,如何從一個spark任務中提取結果而不需要輸出文件? 讓我說,我有一個scala程序,它創建一個火花發射器的工作。 我可以用Futures包裝這個火花工作。一旦完成了火花工作,我怎樣才能得到結果? (1種方式,我之前做過的是將結果寫入文件,然後外部scala程序讀取文件< - 我想避免這種策略)

    0熱度

    2回答

    RDD上有兩個操作要保存。一個是saveAsTextFile,另一個是saveAsObjectFile。我瞭解saveAsTextFile,但不懂saveAsObjectFile。我是Spark和Scala的新手,因此我對saveAsObjectFile很好奇。它是來自Hadoop的序列文件還是不同的東西? 我可以讀取使用Map Reduce使用saveAsObjectFile生成的文件嗎?如果是

    -1熱度

    2回答

    在Spark中開箱即用支持哪些不同的輸入和輸出格式? Map Reduce支持其中的很多,但我在Spark中只看到textFile和objectFile。 另外我怎樣才能在Spark中利用Hadoop輸入/輸出格式?

    0熱度

    1回答

    Spark中加入數據的不同方式有哪些? Hadoop map reduce提供了分佈式緩存,地圖邊連接和減少邊連接。 Spark呢? 另外,如果您可以提供簡單的scala和python代碼來連接Spark中的數據集,那將會很棒。

    2熱度

    2回答

    當我用Druid Tranquility運行一個火花作業時出現以下錯誤。 java.lang.NoSuchFieldError: WRITE_DURATIONS_AS_TIMESTAMPS 德魯伊寧靜使用更高版本的傑克遜 - 數據綁定(2.6.1)比什麼是火花捆綁。 我正在使用最新的穩定版本的Druid Tranquility(0.6.4)和Spark(1.5.2)。 如何解決這個問題? 強制

    0熱度

    2回答

    當在簇中處理時,是否可以將驅動程序節點中的spark程序結果的輸出寫入? df = sqlContext("hdfs://....") result = df.groupby('abc','cde').count() result.write.save("hdfs:...resultfile.parquet", format="parquet") # this works fine res

    3熱度

    2回答

    My Spark Streaming應用程序將數據存儲在MongoDB中。 不幸的是每個星火工人打開太多的連接,同時將其存儲在MongoDB中 以下是我的代碼星火 - 蒙戈DB代碼: public static void main(String[] args) { int numThreads = Integer.parseInt(args[3]); String mongo

    2熱度

    1回答

    我正在使用Spark將Hbase數據加載到JavaPairRDD <>中。現在,我想知道我是否可以將最新的100行加載到Spark中而不是來自Hbase的所有行。 1)我嘗試scan.setCaching(100),但它仍然返回所有行。是否爲了限制我從Hbase加載的行? 2)我怎樣才能確保它是最新的100行 任何想法?非常感謝。 Scan scan = new Scan(); scan

    3熱度

    3回答

    我正在使用Java中的newAPIHadoopRDD來讀取MongoDB集合。 首先,我創建使用下面的類JavaSparkContext對象: public class SparkLauncher { public JavaSparkContext javaSparkContext ; public SparkLauncher() { javaSpark