pyspark-sql

1熱度

1回答

我有被註冊爲tempView一個數據幀和蜂巢表加入 df1.createOrReplaceTempView("mydata") df2 = spark.sql("Select md.column1,md.column2,mht.column1 \ from mydata md inner join myHivetable mht on mht.key1 = md.ke

0熱度

1回答

pyspark使用sparkcontext</p> <p>我的數據庫遠程機器

我使用Python 2.7使用Ubuntu和運行火花使用mysql數據庫通過Python腳本是一個遠程MySQL，使用用戶名和密碼。我嘗試使用此代碼 sc = createSparkContext() sql = SQLContext(sc) df = sql.read.format('jdbc').options(url='jdbc:mysql://ip:port?user=user&pa

0熱度

1回答

如何檢查Pyspark地圖中是否存在關鍵字或值

我在Spark DF中有一個Map列，並且想要在特定鍵上過濾此列（即，如果地圖中的鍵與所需值匹配，則保留該列）。例如，我的模式被定義爲： df_schema = StructType( [StructField('id', StringType()), StructField('rank', MapType(StringType(), IntegerType()))] )

0熱度

1回答

spark 2.x正在讀取整數/雙列作爲使用csv函數的字符串

我正在使用下面的語句讀取spark中的csv。 df = spark.read.csv('<CSV FILE>', header=True, inferSchema = True) 當我在火花數據幀正在檢查一些整數和雙列的形式存儲在數據框中字符串列。但是，所有列都不是這種情況。我已經檢查了特定列的值，所有的值都是double類型，但仍然是spark，推斷爲StringType。由於我使用大

0熱度

1回答

火花2.0.0選擇不同的結果不穩定

我跑pyspark2過火花2.0.0 考慮加載到數據幀穩定常數的數據集，我也被某些列拖放重複： vw_ticket = read_csv(...) vw_ticket_in_booking = vw_ticket.dropDuplicates(['BOOKING_TICKET_ID']) vw_ticket_in_booking.createOrReplaceTempView('vw_tick

0熱度

2回答

如何在pyspark中導入'þ'分隔的.txt文件

我在AWS s3中有一個分隔的.txt文件。 datan用þ839729þ25þ[email protected]þfirstnameþlastnameþ0þBLACKþ28/08/2017þ12329038þ99þ287þ81þ0 我試着用databricks and sparkcontext來導入數據。雖然databricks方法運行並沒有拋出錯誤，但數據框中沒有數據。火花背景只是把錯誤說 -

1熱度

3回答

如何從Kafka讀取XML格式的流數據？

我正在嘗試使用Spark結構化流從卡夫卡主題讀取XML數據。我試過使用Databricks spark-xml包，但是我收到一個錯誤消息，說這個包不支持流式閱讀。有什麼方法可以使用結構化流從Kafka主題中提取XML數據？我當前的代碼： df = spark \ .readStream \ .format("kafka") \ .format('com.da

0熱度

1回答

聚合和合並RDD的正確方法

我有一個客戶表，其中包含有關每個客戶的多個進程的信息。目標是爲每個客戶和每個過程提取功能。這意味着每個特徵主要是對一個對象的聚合或分類比較計算。但是，目標是能夠隨着時間的推移添加越來越多的功能。所以基本上用戶應該能夠使用一些過濾器，度量和聚合來定義一個新的函數，並將這個新函數添加到在表上操作的函數池中。輸出應該是具有所有功能的customerID，processID表。所以我startet

0熱度

1回答

MySQL的閱讀PySpark

我有以下的測試代碼： from pyspark import SparkContext, SQLContext sc = SparkContext('local') sqlContext = SQLContext(sc) print('Created spark context!') if __name__ == '__main__': df = sqlContext.rea

0熱度

1回答

在pyspark中加載SQl查詢？

有沒有什麼方法可以直接從oracle sql使用pyspark來讀取sql腳本？我一直在pyspark中加載兩張桌子並試圖加入，在pyspark花費很長時間，我需要加入更多桌子（6張桌子）。這在Oracle Sql中並不需要太多時間。那麼我怎樣才能讀取和運行一個「X.sql」與pyspark文件？