-2
有沒有什麼優秀的在線資源可以學習如何將數據從Spark寫入Vertica?我試圖瞭解爲什麼寫入Vertica數據庫的速度很慢。將數據從火花寫入Vertica如何工作?
這是我的基本工作流程:
- 創建SparkContext。我正在使用類pyspark.sql.SQLContext來創建一個。
從SQLContext中,使用read方法獲取'jdbc'格式的DataFrameReader接口。
DF = self._sqlContext.read.format( 'JDBC')。選項(URL = self._jdbcURL,DBTABLE =子查詢).load()
從Vertica的數據庫中使用的JDBC連接讀取條目(呼叫它DBA)
- 撰寫的條目爲在步驟1中使用SparkContext另一個Vertica的數據庫(稱之爲DBB)
現在它只是一個簡單的讀從DBA和寫入DBB。但寫50個條目大約需要5秒鐘。
謝謝!
要回答你的問題,我們需要知道你已經嘗試了什麼。 – Kermit
我已更新我的問題,並提供更多詳細信息。我正在尋找一般參考資料。 – OfLettersAndNumbers
我的一般參考是使用ETL產品,如Talend。 – Kermit