2016-04-12 57 views
-2

有沒有什麼優秀的在線資源可以學習如何將數據從Spark寫入Vertica?我試圖瞭解爲什麼寫入Vertica數據庫的速度很慢。將數據從火花寫入Vertica如何工作?

這是我的基本工作流程:

  1. 創建SparkContext。我正在使用類pyspark.sql.SQLContext來創建一個。
  2. 從SQLContext中,使用read方法獲取'jdbc'格式的DataFrameReader接口。

    DF = self._sqlContext.read.format( 'JDBC')。選項(URL = self._jdbcURL,DBTABLE =子查詢).load()

    從Vertica的數據庫中使用的JDBC連接

    讀取條目(呼叫它DBA)

  3. 撰寫的條目爲在步驟1中使用SparkContext另一個Vertica的數據庫(稱之爲DBB)

現在它只是一個簡單的讀從DBA和寫入DBB。但寫50個條目大約需要5秒鐘。

謝謝!

+0

要回答你的問題,我們需要知道你已經嘗試了什麼。 – Kermit

+0

我已更新我的問題,並提供更多詳細信息。我正在尋找一般參考資料。 – OfLettersAndNumbers

+0

我的一般參考是使用ETL產品,如Talend。 – Kermit

回答

0

您是否嘗試過HPE的大數據市場,特別是HPE Vertica Connector For Apache Spark?您需要創建一個帳戶才能下載該文件,但創建帳戶沒有任何相關費用。該文檔包括一個將Spark數據框寫入Vertica表的Scala示例。