Amazon EMR w/Spark w/Postgres：「無法啓動數據庫'metastore_db'」

我已經在自己的Linux服務器上使用Apache Spark和PostgreSQL JDBC驅動程序，但沒有問題，但我無法使其工作在Amazon EMR上以同樣的方式執行。Amazon EMR w/Spark w/Postgres：「無法啓動數據庫'metastore_db'」

我先下載Postgres的驅動程序和設置我pyspark類路徑是這樣的：Adding postgresql jar though spark-submit on amazon EMR

我執行在Amazon EMR實例設置了Spark在pyspark下，類似於如何我通常做我自己服務器。「myhost的」正在運行的PostgreSQL，這我能夠從我的EMR實例與psql連接到我的亞馬遜RDS實例的主機名，所以我知道它應該工作：

# helper, gets RDD from database 
def get_db_rdd(table, lower=0, upper=1000): 
    db_connection = { 
      "host": "myhost", 
      "port": 5432, 
      "database": "mydb", 
      "user": "postgres", 
      "password": "mypassword" 
      } 
    url = "jdbc:postgresql://{}:{}/{}?user={}".format(db_connection["host"], 
                 db_connection["port"], 
                 db_connection["database"], 
                 db_connection["user"]) 
    ret = sqlContext \ 
     .read \ 
     .format("jdbc") \ 
     .option("url", url) \ 
     .option("dbtable", table) \ 
     .option("partitionColumn", "id") \ 
     .option("numPartitions", 1024) \ 
     .option("lowerBound", lower) \ 
     .option("upperBound", upper) \ 
     .option("password", db_connection["password"]) \ 
     .load() 
    ret = ret.rdd 
    return ret 

from pyspark.sql import SQLContext 
sqlContext = SQLContext(sc) 

rdd = get_db_rdd("test", 0, 3) # table exists, has columns (`id bigserial, string text`)

我立即得到一個崩潰與此異常：

17/04/21 19:34:07 ERROR Schema: Failed initialising database. 
Unable to open a test connection to the given database. JDBC url = jdbc:derby:;databaseName=metastore_db;create=true, username = APP. Terminating connection pool (set lazyInit to true if you expect to start your database after your app). Original Exception: ------ 
java.sql.SQLException: Failed to start database 'metastore_db' with class loader [email protected]a157b0, see the next exception for details. 
     at org.apache.derby.impl.jdbc.SQLExceptionFactory.getSQLException(Unknown Source) 
     at org.apache.derby.impl.jdbc.SQLExceptionFactory.getSQLException(Unknown Source) 
[...]

環顧在線，這與Apache Hive有關...不知道爲什麼這裏涉及到，但我可能會誤解。我在我的家裏看到metastore_db。所有提出的解決方案都涉及到編輯一些Hive配置，我甚至沒有在我的實例上創建該配置或創建該目錄。我的EMR實例具有完全默認設置。更熟悉這種環境的人能否指出我正確的方向？

編輯：我沒有整個堆棧跟蹤方便，但有一些留在我的GNU屏幕。下面是更多的，提到德比：

Caused by: ERROR XJ040: Failed to start database 'metastore_db' with class loader [email protected]a157b0, see the next exception for details. 
     at org.apache.derby.iapi.error.StandardException.newException(Unknown Source) 
     at org.apache.derby.impl.jdbc.SQLExceptionFactory.wrapArgsForTransportAcrossDRDA(Unknown Source) 
     ... 113 more 
Caused by: ERROR XSDB6: Another instance of Derby may have already booted the database /home/hadoop/metastore_db. 
     at org.apache.derby.iapi.error.StandardException.newException(Unknown Source) 
     at org.apache.derby.iapi.error.StandardException.newException(Unknown Source) 
     at org.apache.derby.impl.store.raw.data.BaseDataFileFactory.privGetJBMSLockOnDB(Unknown Source)

編輯2：使用其他RDDS像以下工作：sc.parallelize([1, 2, 3]).map(lambda r: r * 2).collect()。問題僅在於連接到Postgres的RDD。

編輯3：

>>> spark.range(5).show() 
+---+ 
| id| 
+---+ 
| 0| 
| 1| 
| 2| 
| 3| 
| 4| 
+---+

來源

2017-04-21 sudo

「無法啓動數據庫'metastore_db'」通常在您已經有一個Spark實例正在運行時發生，並且默認Metastore在封面下使用Derby，因此是異常。你能發佈整個堆棧跟蹤嗎？我期望Derby的錯誤落在堆棧跟蹤的底部。 –

是的，我看到德比的錯誤。但據我所知，我只有一個Spark實例在運行。星期一，我會再試一次，並捕獲整個堆棧跟蹤。 – sudo

變得更好！認爲我們可以儘快整理出來。我相信當你僅僅使用'spark-shell'並執行'spark.range（5）.show'並且啓動Spark底層基礎架構時，你會得到相同的堆棧跟蹤。 –

錯誤消息：

產生的原因：ERROR XSDB6：德比的另一個實例可能已經啓動了數據庫/家庭/ Hadoop的/ metastore_db。

告訴我們嵌入式單線程Derby實例已經在使用中。我不是很熟悉的蜂巢，但星火靴子蜂房啓用SparkSession在使用，你可以在你的堆棧跟蹤看到：

at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:503) 
    at org.apache.spark.sql.hive.client.HiveClientImpl.<init>(HiveClientImpl.scala:192) 
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) 
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) 
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) 
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423) 
    at org.apache.spark.sql.hive.client.IsolatedClientLoader.createClient(IsolatedClientLoader.scala:264) 
    at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:366) 
    at org.apache.spark.sql.hive.HiveUtils$.newClientForMetadata(HiveUtils.scala:270) 
    at org.apache.spark.sql.hive.HiveExternalCatalog.<init>(HiveExternalCatalog.scala:65) 
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) 
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) 
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) 
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423) 
    at org.apache.spark.sql.internal.SharedState$.org$apache$spark$sql$internal$SharedState$$reflect(SharedState.scala:166) 
    at org.apache.spark.sql.internal.SharedState.<init>(SharedState.scala:86) 
    at org.apache.spark.sql.SparkSession$$anonfun$sharedState$1.apply(SparkSession.scala:101) 
    at org.apache.spark.sql.SparkSession$$anonfun$sharedState$1.apply(SparkSession.scala:101) 
    at scala.Option.getOrElse(Option.scala:121) 
    at org.apache.spark.sql.SparkSession.sharedState$lzycompute(SparkSession.scala:101) 
    at org.apache.spark.sql.SparkSession.sharedState(SparkSession.scala:100) 
    at org.apache.spark.sql.internal.SessionState.<init>(SessionState.scala:157) 
    at org.apache.spark.sql.hive.HiveSessionState.<init>(HiveSessionState.scala:32) 
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method) 
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62) 
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45) 
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423) 
    at org.apache.spark.sql.SparkSession$.org$apache$spark$sql$SparkSession$$reflect(SparkSession.scala:978) 
    at org.apache.spark.sql.SparkSession.sessionState$lzycompute(SparkSession.scala:110) 
    at org.apache.spark.sql.SparkSession.sessionState(SparkSession.scala:109) 
    at org.apache.spark.sql.DataFrameReader.<init>(DataFrameReader.scala:549) 
    at org.apache.spark.sql.SparkSession.read(SparkSession.scala:605) 
    at org.apache.spark.sql.SQLContext.read(SQLContext.scala:516)

我複製了最相關的線（去除噪聲）。注意：由於Spark本身支持最多（並且在Spark 2.2最爲Hive「基礎架構」will get away），因此近期您並不需要Hive特性。

正如您在堆棧跟蹤中看到的那樣，當您使用作爲Spark SQL入口點的SparkSession時，將只會拋出多線程訪問單線程Derby異常。

at org.apache.spark.sql.SparkSession.sessionState$lzycompute(SparkSession.scala:110) 
    at org.apache.spark.sql.SparkSession.sessionState(SparkSession.scala:109) 
    at org.apache.spark.sql.DataFrameReader.<init>(DataFrameReader.scala:549) 
    at org.apache.spark.sql.SparkSession.read(SparkSession.scala:605) 
    at org.apache.spark.sql.SQLContext.read(SQLContext.scala:516)

這就是爲什麼在使用RDD API時看不到它的原因。 RDD API根本不使用Hive。

閱讀Hive的官方文檔Local/Embedded Metastore Database (Derby)。

來源

2017-04-23 11:12:35

是的，問題是Amazon在build/config中默認包含Hive。似乎我可以避免這個問題，如果我禁用Hive或斷開默認連接，然後再爲Postgres設置我的SQLContext。文檔不建議任何方式來做到這一點。我嘗試'del sqlContext'使原始Hive上下文'pyspark'創建斷開連接，沒有運氣。 – sudo

感謝來自Jacek的關於我的問題性質的建議，經過一些試驗和錯誤之後，我開發了一個黑客解決方法。還沒有能夠真正解決問題，但這是有效的，這對我來說已經足夠了。如果我稍後遇到問題，我會報告。（！）：

與Postgres的驅動程序的正常啓動pyspark pyspark --driver-class-path=/home/hadoop/postgres_driver.jar --jars=/home/hadoop/postgres_driver.jar
雖然這是開放的，在一個單獨的SSH會話，cd到家庭和mv metastore_db old_metastore_db（或者你可以在pyspark與os.system()做到這一點）。重點是釋放Spark默認創建的Metastore上的鎖定; Spark將重新創建沒有鎖定的目錄。
嘗試按照我在問題中描述的方式創建連接到Postgres的RDD。它會給出一個關於「沒有合適的驅動程序」的錯誤。出於某種原因，該驅動程序未加載。但是在那個錯誤之後，看起來驅動程序實際上已經加載了。
mv metastore_db old_metastore_db2，出於與上述類似的原因。我想現在連接了另一個Hive會話，需要清除鎖定。
以同樣的方式再次創建Postgres連接的RDD。驅動程序已加載，並且Metastore已解鎖，並且似乎正常工作。我可以從我的表中獲取，執行RDD操作，並且collect()。

是的，我知道這很髒。使用風險自負。

來源

2017-04-23 19:25:25 sudo

Amazon EMR w/Spark w/Postgres：「無法啓動數據庫'metastore_db'」

回答

相關問題