spark-dataframe

-3熱度

1回答

您好我正在閱讀包含json格式記錄的序列文件，當讀取json記錄轉換爲Dataframe導致數據歪斜問題時，您可以看到形式Spark UI屏幕快照。如何避免這種數據歪斜問題？ val src = sc.sequenceFile(FilePath, classOf[Text], classOf[Text]) val df = sqlCntxt.read.json(src) 261級完成的任務

0熱度

1回答

將scala火花數據框的結果合併爲另一個數據框的列中的結果數組

有沒有辦法採用以下兩個數據框並通過產生下面輸出的col0字段將它們連接起來？ // dataframe1 val df1 = Seq( (1, 9, 100.1, 10), ).toDF("pk", "col0", "col1", "col2") // dataframe2 val df2 = Seq( (1, 9 "a1", "b1"), (2, 9 "a2",

1熱度

1回答

檢查一列是否具有正確的十進制數

我有一個數據幀（input_dataframe），它看起來像如下： id test_column 1 0.25 2 1.1 3 12 4 test 5 1.3334 6 .11 我想增加一列結果，裏面放值如果test_column具有十進制值和如果test_column具有任何其他值。數據類型test_column是字符串。以下是預期輸出： id tes

0熱度

1回答

確定爲什麼數據是Spark

我調查一個Spark SQL作業（火花1.6.0），其表現不佳的原因橫跨200個分區嚴重偏斜數據偏斜，大部分數據是1個分區：什麼我想知道...是否有Spark界面中的任何內容幫助我瞭解有關數據如何分區的更多信息？從看這個我不知道哪些列的數據框分區。我怎麼能找到這個？（除了查看代碼 - 我想知道日誌和/或UI中是否有任何內容可以幫助我）？其他細節，這是使用Spark的數據幀API，Spark版

0熱度

1回答

UDF不工作火花階

這是怎麼我在火花數據幀使用UDF .. val sqlContext = new org.apache.spark.sql.SQLContext(sc) import sqlContext.implicits._ import org.apache.spark.{ SparkConf, SparkContext } import java.sql.{Date, Ti

0熱度

1回答

spark 1.6不會觸發sqlContext.read.json動作嗎？如何避免使用json格式記錄讀取序列文件

。讀取的輸入序列文件 sqlcontext.read.json（）來轉換成數據幀從數據幀和緩存以上選擇子集的數據。我面臨的問題是，當火花到達第2步時，它似乎觸發了操作，因此讀取輸入數據並創建數據幀。但是當我到達第3步，因爲它實現了一個緩存觸發動作來實現DF，它再次讀取輸入數據，因此浪費了兩次讀輸入數據的時間。我不想緩存輸入數據。如何避免兩次讀取輸入數據？

0熱度

2回答

Spark Scala CSV列名爲小寫

請在下面找到代碼並讓我知道如何將列名更改爲小寫。我嘗試過使用ColumnRename，但是我必須爲每列執行並輸入所有列名稱。我只是想在列上做，所以我不想提及所有列名稱，因爲它們有太多。斯卡拉版本：2.11 星火：2.2 import org.apache.spark.sql.SparkSession import org.apache.log4j.{Level, Logger} import

0熱度

1回答

Spark從一個數據幀創建多個數據幀

我使用Spark 2.1和Cassandra（3.9）作爲數據源。 C *有一個有50列的大表，對我的用例來說這不是一個好的數據模型。所以我爲每個傳感器創建了拆分表以及分區鍵和集羣鍵列。 All sensor table ----------------------------------------------------- | Device | Time | Sensor1 | Sens

-1熱度

1回答

在不工作的火花數據幀與空值替換空值

我有兩個數據集，數據集1如下 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^|

1熱度

2回答

星火據幀巢式病例在聲明

我需要實施星火下面的SQL邏輯DataFrame SELECT KEY, CASE WHEN tc in ('a','b') THEN 'Y' WHEN tc in ('a') AND amt > 0 THEN 'N' ELSE NULL END REASON, FROM dataset1; 我輸入DataFrame是如下： val dataset1 = S