PySpark和HIVE/Impala

我想在PySpark中建立一個分類模型。我對此模型的輸入是選擇查詢或從Hive或Impala查看的結果。是任何方式將此查詢包含在PySpark代碼本身中，而不是將結果存儲到我們的模型中的文本文件中PySpark和HIVE/Impala

2017-02-22 R RAMESH NAIK

是的，您需要使用帶有sparkContext的HiveContext。這裏是例子： -

sqlContext = HiveContext(sc) 
tableData = sqlContext.sql("SELECT * FROM TABLE") 
#tableData is a dataframe containing reference to schema of table, check this using tableData.printSchema() 
tableData.collect() #collect executes query and provide all rows from sql

，或者你可以參考這裏 https://spark.apache.org/docs/1.6.0/sql-programming-guide.html

來源

2017-02-22 14:46:41

非常感謝快速回復。所以tableData將作爲我的輸入數據來建模？我的整個目標是一旦我每天運行pyspark logit迴歸代碼，我的迴歸模型應該可以工作，並且我的模型的數據應該包括我的數據集中的最新更新記錄（火車和測試） –

@RRAMESHNAIK是表格數據將直接輸入你的模型。 –

非常感謝你Rakesh。還有一件事是我們必須將我們的數據轉換爲RDD。所以tableData.collect（）的結果是一個原始數據或者它已經是一個RDD。我的意思是應該將其轉換爲RDD？ –

PySpark和HIVE/Impala

回答

相關問題