pyspark-sql

    -2熱度

    1回答

    我有一個表id_track歷史記錄,它在不同的時間戳中更新id。我想通過在sql中迭代搜索來整合到最新的id。我怎樣才能在SQL中做到這一點? 表: OLD_ID NEW_ID TIME-STAMP 101 103 1/5/2001 102 108 2/5/2001 103 105 3/5/2001 105 106 4/5/2001 110 111 4/5/2001 108 116 14/5/20

    0熱度

    2回答

    我在目錄s3://mybucket/my/directory/的s3上有一些製表符分隔的數據。現在 ,我告訴我要使用\t作爲分隔符讀取只是一個文件中像這樣pyspark: from pyspark import SparkContext from pyspark.sql import HiveContext, SQLContext, Row from pyspark.sql.types im

    -1熱度

    1回答

    我有一個數據幀,df,有5列 student_id course_id course_date attendance_id 這些列都不是唯一的,但student_id和attendance_id的結合將是獨一無二的。我想通過選擇最早的course_date創建一個新的數據幀new_df,該數據幀對於student_id是唯一的。在熊貓,我通過這樣做: new_df = df.groupb

    0熱度

    2回答

    我的數據如下。 It has three attributes: location, date, and student_id. 在熊貓,我可以做 GROUPBY([ '位置', '日期'])[ 'student_id數據']。唯一的() 看到的每個位置,在不同的日期,哪些學生同時去那裏學習。 我的問題是如何在PySpark中提取相同的信息?謝謝。

    0熱度

    1回答

    使用SQL查詢,我想提取ID,姓名的20%以上,而工資的人起薪,計劃養老金超過工資的20%。 這裏是我的SQL查詢: sqlContext.sql("""select Id,Name,Salary from work where Pension >= Salary/20*100 order by Id asc""").show() 而且,這裏是我的SQL查詢訪問表: [ Row(Id

    0熱度

    1回答

    我有以下數據框顯示購買收入。 +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7|

    1熱度

    1回答

    我有這些列 ID,價格,時間戳數據幀。 我想找到我使用此代碼來找到它,但它給我這個錯誤的「身份證」 分組中值。 from pyspark.sql import DataFrameStatFunctions as statFunc windowSpec = Window.partitionBy("id") median = statFunc.approxQuantile("price",

    0熱度

    1回答

    我使用的火花提交選項submiting Pyspark/SparkSQL劇本,我需要運行變量(數據庫名稱)傳遞給腳本 火花提交命令: spark-submit --conf *database_parameter*=my_database my_pyspark_script.py pyspark腳本 database_parameter = SparkContext.getConf().get

    0熱度

    1回答

    當我嘗試將數據幀保存爲配置單元表pyspark df_writer.saveAsTable('hive_table', format='parquet', mode='overwrite') 我收到以下錯誤: Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://

    1熱度

    4回答

    對不起,如果這是一個愚蠢的問題,但我似乎無法得到我的頭。我對SQL相當陌生,在R或Pandas或其他我習慣使用的東西中,這種行爲會很奇怪。 基本上,我有兩個表在兩個不同的數據庫中,使用一個公用密鑰user_id。我想加入所有列 SELECT * FROM db1.first_table t1 JOIN db2.second_table t2 ON t1.user_id = t2.user_id