spark-dataframe

    0熱度

    1回答

    正確的十進制數我有一個數據幀(input_dataframe),它看起來像如下: id test_column 1 0.25 2 1.1 3 12 4 test 5 1.3334 6 12.0 我想增加一列結果,把值如果test_column有一個十進制值,如果test_column具有任何其他值,則爲0。 test_column的數據類型是字符串。下面是

    0熱度

    1回答

    我有一個數據集,它看起來像這樣 LineItem.organizationId|^|LineItem.lineItemId|^|StatementTypeCode|^|LineItemName|^|LocalLanguageLabel|^|FinancialConceptLocal|^|FinancialConceptGlobal|^|IsDimensional|^|InstrumentId|^|

    2熱度

    2回答

    我有複雜的邏輯實現,嘗試了一段時間,但仍然沒有線索,請幫助檢查它是否切實可行以及如何執行。非常感謝你!! 我有以下SparkSQL數據框(datetime正在增加,「類型」被重複,每節(不同類型的)總是與'flag'=1開始): +---------+-----+----+-----+ |datetime |type |flag|value| +---------+-----+----+---

    1熱度

    1回答

    我有以下的表存儲在蜂巢稱爲ExampleData: +--------+-----+---| |Site_ID |Time |Age| +--------+-----+---| |1 |10:00| 20| |1 |11:00| 21| |2 |10:00| 24| |2 |11:00| 24| |2 |12:00| 20| |3 |11:00| 24| +-----

    1熱度

    1回答

    我正試圖在火花中實現二次排序。準確地說,對於用戶會話的所有事件,我想根據時間戳對它們進行排序。我需要遍歷會話的每個事件來實現業務邏輯。我這樣做如下: def createCombiner = (row: Row) => Array(row) def mergeValue = (rows: Array[Row], row: Row) => { rows :+ row } def

    0熱度

    2回答

    我使用星火2.1.0在UNIX中,發現在那裏UNIX_TIMESTAMP正在發生變化小時,一個特定的時間戳一個奇怪的問題變化小時,我創建了一個數據幀如下 對於df2中的第一條記錄,將「20170312020200」作爲字符串,後來我在df3中投入時間戳,小時數應爲02,而在df3中爲03。但第二條記錄在將字符串轉換爲時間戳時沒有問題。 當我在本地系統中使用Intellij運行應用程序時,不會發生這

    0熱度

    1回答

    我有一個如下所示的數據框。 itemName, itemCategory Name1, C0 Name2, C1 Name3, C0 我想保存這個數據幀作爲劃分拼花文件: df.write.mode("overwrite").partitionBy("itemCategory").parquet(path) 對於這個數據幀,當我讀回數據,這將有字符串的數據類型itemCategory

    1熱度

    2回答

    我按幾列分組,正在從這些列中得到WrappedArray,正如您在架構中所見。我如何擺脫它們,以便我可以繼續下一步並執行orderBy? val sqlDF = spark.sql("SELECT * FROM parquet.`parquet/20171009121227/rels/*.parquet`") 得到一個數據框: val final_df = groupedBy_DF.

    -1熱度

    1回答

    我想以編程方式給出一定數量的字段,並且對於某些字段,選擇一個列並將該字段傳遞給另一個函數,該函數將返回一個字符串case類,字符串。到目前爲止,我有 val myList = Seq(("a", "b", "c", "d"), ("aa", "bb", "cc","dd")) val df = myList.toDF("col1","col2","col3","col4") val fie

    0熱度

    1回答

    我必須計算每行之間的餘弦距離,但我不知道如何使用Spark API Dataframes優雅地完成它。這個想法是計算每行(項目)的相似度,並通過比較行之間的相似性來獲得前10個相似度。 - >這是需要Item-Item Recommender System。 所有我讀過有關它被稱爲計算相似度超過列Apache Spark Python Cosine Similarity over DataFram