pyspark-sql

-2熱度

1回答

我有一個表id_track歷史記錄，它在不同的時間戳中更新id。我想通過在sql中迭代搜索來整合到最新的id。我怎樣才能在SQL中做到這一點？表： OLD_ID NEW_ID TIME-STAMP 101 103 1/5/2001 102 108 2/5/2001 103 105 3/5/2001 105 106 4/5/2001 110 111 4/5/2001 108 116 14/5/20

0熱度

2回答

如何讀取pyspark中s3的表格數據？

我在目錄s3://mybucket/my/directory/的s3上有一些製表符分隔的數據。現在，我告訴我要使用\t作爲分隔符讀取只是一個文件中像這樣pyspark： from pyspark import SparkContext from pyspark.sql import HiveContext, SQLContext, Row from pyspark.sql.types im

-1熱度

1回答

在這個Pandas操作中，Spark SQL中的對應查詢是什麼？

我有一個數據幀，df，有5列 student_id course_id course_date attendance_id 這些列都不是唯一的，但student_id和attendance_id的結合將是獨一無二的。我想通過選擇最早的course_date創建一個新的數據幀new_df，該數據幀對於student_id是唯一的。在熊貓，我通過這樣做： new_df = df.groupb

0熱度

2回答

PySpark中的等價值groupyby（）。unique（）

我的數據如下。 It has three attributes: location, date, and student_id. 在熊貓，我可以做 GROUPBY（[ '位置'， '日期']）[ 'student_id數據']。唯一的（）看到的每個位置，在不同的日期，哪些學生同時去那裏學習。我的問題是如何在PySpark中提取相同的信息？謝謝。

0熱度

1回答

火花SQL： - 找出ID，名稱的記錄，其計劃的退休金工資

使用SQL查詢，我想提取ID，姓名的20％以上，而工資的人起薪，計劃養老金超過工資的20％。這裏是我的SQL查詢： sqlContext.sql("""select Id,Name,Salary from work where Pension >= Salary/20*100 order by Id asc""").show() 而且，這裏是我的SQL查詢訪問表： [ Row(Id

0熱度

1回答

Spark - 窗口與遞歸？ - 有條件地傳播行的值

我有以下數據框顯示購買收入。 +-------+--------+-------+ |user_id|visit_id|revenue| +-------+--------+-------+ | 1| 1| 0| | 1| 2| 0| | 1| 3| 0| | 1| 4| 100| | 1| 5| 0| | 1| 6| 0| | 1| 7|

1熱度

1回答

pyspark approxQuantile功能

我有這些列 ID，價格，時間戳數據幀。我想找到我使用此代碼來找到它，但它給我這個錯誤的「身份證」分組中值。 from pyspark.sql import DataFrameStatFunctions as statFunc windowSpec = Window.partitionBy("id") median = statFunc.approxQuantile("price",

0熱度

1回答

火花提交：通過運行變量來引發腳本

我使用的火花提交選項submiting Pyspark/SparkSQL劇本，我需要運行變量（數據庫名稱）傳遞給腳本火花提交命令： spark-submit --conf *database_parameter*=my_database my_pyspark_script.py pyspark腳本 database_parameter = SparkContext.getConf().get

0熱度

1回答

無法保存數據幀蜂巢表，投擲文件未發現異常

當我嘗試將數據幀保存爲配置單元表pyspark df_writer.saveAsTable('hive_table', format='parquet', mode='overwrite') 我收到以下錯誤： Caused by: org.apache.hadoop.mapred.InvalidInputException: Input path does not exist: hdfs://

1熱度

4回答

，爲什麼這個JOIN返回鍵列兩次？

對不起，如果這是一個愚蠢的問題，但我似乎無法得到我的頭。我對SQL相當陌生，在R或Pandas或其他我習慣使用的東西中，這種行爲會很奇怪。基本上，我有兩個表在兩個不同的數據庫中，使用一個公用密鑰user_id。我想加入所有列 SELECT * FROM db1.first_table t1 JOIN db2.second_table t2 ON t1.user_id = t2.user_id