我在目錄s3://mybucket/my/directory/的s3上有一些製表符分隔的數據。現在 ,我告訴我要使用\t作爲分隔符讀取只是一個文件中像這樣pyspark: from pyspark import SparkContext
from pyspark.sql import HiveContext, SQLContext, Row
from pyspark.sql.types im
我的數據如下。 It has three attributes: location, date, and student_id. 在熊貓,我可以做 GROUPBY([ '位置', '日期'])[ 'student_id數據']。唯一的() 看到的每個位置,在不同的日期,哪些學生同時去那裏學習。 我的問題是如何在PySpark中提取相同的信息?謝謝。
使用SQL查詢,我想提取ID,姓名的20%以上,而工資的人起薪,計劃養老金超過工資的20%。 這裏是我的SQL查詢: sqlContext.sql("""select Id,Name,Salary from work where Pension >= Salary/20*100 order by Id asc""").show()
而且,這裏是我的SQL查詢訪問表: [
Row(Id