2017-02-22 92 views
1

我想在PySpark中建立一個分類模型。我對此模型的輸入是選擇查詢或從Hive或Impala查看的結果。是任何方式將此查詢包含在PySpark代碼本身中,而不是將結果存儲到我們的模型中的文本文件中PySpark和HIVE/Impala

回答

0

是的,您需要使用帶有sparkContext的HiveContext。 這裏是例子: -

sqlContext = HiveContext(sc) 
tableData = sqlContext.sql("SELECT * FROM TABLE") 
#tableData is a dataframe containing reference to schema of table, check this using tableData.printSchema() 
tableData.collect() #collect executes query and provide all rows from sql 

,或者你可以參考這裏 https://spark.apache.org/docs/1.6.0/sql-programming-guide.html

+0

非常感謝快速回復。所以tableData將作爲我的輸入數據來建模?我的整個目標是一旦我每天運行pyspark logit迴歸代碼,我的迴歸模型應該可以工作,並且我的模型的數據應該包括我的數據集中的最新更新記錄(火車和測試) –

+0

@RRAMESHNAIK是表格數據將直接輸入你的模型。 –

+0

非常感謝你Rakesh。還有一件事是我們必須將我們的數據轉換爲RDD。所以tableData.collect()的結果是一個原始數據或者它已經是一個RDD。我的意思是應該將其轉換爲RDD? –