apache-spark-dataset

11熱度

2回答

我想爲DataSet中的Row類型編寫一個編碼器，用於我正在執行的映射操作。本質上，我不懂如何編寫編碼器。下面是一個地圖操作的示例： In the example below, instead of returning Dataset<String>, I would like to return Dataset<Row> Dataset<String> output = dataset1.fl

0熱度

1回答

數據類型不匹配，而在火花集轉換數據

我創建從一個CSV文件鑲木結構用火花： Dataset<Row> df = park.read().format("com.databricks.spark.csv").option("inferSchema", "true") .option("header", "true").load("sample.csv"); df.write().parquet("sample.parq

0熱度

1回答

如何從一個數據框中使用另一個數據框的信息隨機選擇行

以下我正在嘗試Scala-Spark。我對這兩種技術都比較陌生，對我來說很裸露。我希望有人能給我一些關於如何解決這個問題的指導，或者提供一些資源來弄清楚我能做些什麼。我有一個dateCountDF與計數對應的日期。我想從另一個Dataframe entitiesDF其中dateCountDF.FirstDate<entitiesDF.Date && entitiesDF.Date <= dat

2熱度

1回答

通過搜索在Apache的一個數據集的列標題星火的Java

我有類似下面 0 1 2 3 +------+------------+--------------------+---+ |ItemID|Manufacturer| Category |UPC| +------+------------+--------------------+---+ | 804| ael|Brush & Br

1熱度

1回答

問題星火的Java

我們目前面臨幾個問題 1. 「org.apache.spark.sql.catalyst.expressions.GeneratedClass $ GeneratedIterator」增長超過64 KB 「 2的」 java .lang.StackOverflowError 第一個問題被報道的」爲Apache的火花https://issues.apache.org/jira/browse/SPA

0熱度

1回答

如何在BigInts中使用數據集？

嘗試，因爲我可能，我不能創建具有足夠的精度來處理DecimalType(38,0)的情況下類的數據集。我已經試過： case class BigId(id: scala.math.BigInt) 這遇到錯誤的ExpressionEncoderhttps://issues.apache.org/jira/browse/SPARK-20341 我已經試過： case class BigId(id

2熱度

3回答

在Apache Spark中搜索並替換

我們創建了兩個數據集語句DataFrame，sentenceDataFrame2，其中應該發生搜索替換。 sentenceDataFrame2存儲搜索和替換條款。我們還執行了所有11種類型的連接'inner'，'outer'，'full'，'fullouter'，'leftouter'，'left'，'rightouter'，'right'，'leftsemi'，'leftanti '，'十字'他

1熱度

1回答

如何加入兩個parquet數據集？

我正在從Java中的Spark中的Parquet文件中加載兩個DataSet。我需要創建一個新的作爲兩者的組合。在常規SQL中，我會加入表格，在某些情況下應用一些條件並創建新表格。有沒有什麼辦法可以在Spark（SQL）中實現這一點？我讀過RDD可能的情況，但我並不想將數據寫回磁盤。

0熱度

2回答

在哪裏條件下帶有子選擇的Spark數據集

我嘗試在Spark SQL中重新創建SQL查詢。通常我會插入這樣一個表： INSERT INTO Table_B ( primary_key, value_1, value_2 ) SELECT DISTINCT primary_key, value_1, value_2 FROM Table_A WHERE NOT

5熱度

2回答

如何將整列的大小寫更改爲小寫？