我想從本地磁盤中存儲的SQLLite .db文件加載表。 PySpark有沒有乾淨的方法來做到這一點?如何從PySpark的SQLLite db文件加載表?
目前,我正在使用的解決方案,但沒有作爲優雅。首先,我使用熊貓來閱讀表格,儘管sqlite3。一個問題是,在過程中架構信息沒有通過(可能會或可能不成問題)。我想知道是否有直接的方式來加載表而不使用熊貓。
import sqlite3
import pandas as pd
db_path = 'alocalfile.db'
query = 'SELECT * from ATableToLoad'
conn = sqlite3.connect(db_path)
a_pandas_df = pd.read_sql_query(query, conn)
a_spark_df = SQLContext.createDataFrame(a_pandas_df)
似乎有一種方法使用jdbc來做到這一點,但我還沒有弄清楚如何在PySpark中使用它。
什麼模式信息?你的意思是數據類型?不是說sqlite *真的*有他們... –