使用impyla模塊,我將impala查詢的結果下載到了熊貓數據框中,完成了分析,現在想將結果寫回到impala上的表格,或者至少一個hdfs文件。將熊貓表寫入impala
但是,我找不到任何有關如何執行此操作的信息,甚至無法找到有關如何執行此操作的信息,甚至不知道如何ssh進入impala外殼並從那裏寫入表格。
我想做什麼:
from impala.dbapi import connect
from impala.util import as_pandas
# connect to my host and port
conn=connect(host='myhost', port=111)
# create query to save table as pandas df
create_query = """
SELECT * FROM {}
""".format(my_table_name)
# run query on impala
cur = conn.cursor()
cur.execute(create_query)
# store results as pandas data frame
pandas_df = as_pandas(cur)
cur.close()
一旦我做什麼我需要pandas_df做,回到黑斑羚保存這些結果的表。
# create query to save new_df back to impala
save_query = """
CREATE TABLE new_table AS
SELECT *
FROM pandas_df
"""
# run query on impala
cur = conn.cursor()
cur.execute(save_query)
cur.close()
以上情景將是理想的,但我會很高興,如果我能想出如何ssh到黑斑羚殼,做這個蟒蛇,甚至只是表保存到HDFS。我正在將其作爲其他用戶的腳本編寫,因此在腳本中完成這些操作是非常重要的。非常感謝!
我其實只是在閱讀有關的一天。聽起來像我必須檢查出來。 – SummerEla