你並不孤單,希望從Spark獲得Kerberos認證給HBase。 SPARK-12279
一個鮮爲人知的事實是,火花現在生成Hadoop的「身份驗證令牌」爲紗線,HDFS,配置單元,HBase的在啓動時。然後將這些令牌廣播給執行者,以便它們不必再次混淆Kerberos認證,密鑰表等。
第一個問題是它沒有明確記錄,並且在失敗的情況下,錯誤被隱藏默認情況下是(即大多數人沒有使用Kerberos連接到HBase,所以通常沒有意識到HBase JAR不在CLASSPATH中,並且通常不會創建HBase標記。)
要記錄所有詳細信息關於這些令牌,您必須將org.apache.spark.deploy.yarn.Client
的日誌級別設置爲DEBUG。
第二個問題是,除了屬性,Spark支持許多env變量,一些文檔記錄,一些沒有記錄,一些實際上已被棄用。
例如,SPARK_CLASSPATH
現已被棄用,其內容實際上注入Spark屬性spark.driver
/spark.executor.extraClassPath
。
但SPARK_DIST_CLASSPATH
仍在使用中,例如在Cloudera發行版中,它用於將核心Hadoop庫&配置注入Spark「啓動程序」,以便它可以在驅動程序啓動之前引導YARN羣集執行(即在評估spark.driver.extraClassPath
之前)。
感興趣的其他變量是
HADOOP_CONF_DIR
SPARK_CONF_DIR
SPARK_EXTRA_LIB_PATH
SPARK_SUBMIT_OPTS
SPARK_PRINT_LAUNCH_COMMAND
的第三個問題是,在某些特定情況下(如G。紗集羣中的Cloudera的發行模式),星火財產spark.yarn.tokens.hbase.enabled
默默地設置爲false
- 這使得完全沒有意義,即默認是硬編碼在火花源代碼true
...!
因此,建議您在作業配置中明確強制使用true
。
第四個問題是,即使HBase令牌已經在啓動時創建,那麼執行者必須明確地使用它來驗證。幸運的是,Cloudera爲HBase貢獻了一個「Spark連接器」,可以自動處理這種討厭的東西。現在它默認是HBase客戶端的一部分(參見hbase-spark*.jar
)。
第五個問題是,據我所知,如果你沒有metrics-core*.jar
在CLASSPATH不那麼HBase的連接將失敗,令人費解(和無關)ZooKepper錯誤。
¤¤¤¤¤
如何使這些東西的工作,與調試跟蹤
# we assume that spark-env.sh and spark-default.conf are already Hadoop-ready,
# and also *almost* HBase-ready (as in a CDH distro);
# especially HADOOP_CONF_DIR and SPARK_DIST_CLASSPATH are expected to be set
# but spark.*.extraClassPath/.extraJavaOptions are expected to be unset
KRB_DEBUG_OPTS="-Dlog4j.logger.org.apache.spark.deploy.yarn.Client=DEBUG -Dlog4j.logger.org.apache.hadoop.hbase.zookeeper.RecoverableZooKeeper=DEBUG -Dlog4j.logger.org.apache.hadoop.hbase.client.ConnectionManager$HConnectionImplementation=DEBUG -Dlog4j.logger.org.apache.hadoop.hbase.spark.HBaseContext=DEBUG -Dsun.security.krb5.debug=true -Djava.security.debug=gssloginconfig,configfile,configparser,logincontext"
EXTRA_HBASE_CP=/etc/hbase/conf/:/opt/cloudera/parcels/CDH/lib/hbase/hbase-spark.jar:/opt/cloudera/parcels/CDH/lib/hbase/lib/metrics-core-2.2.0.jar
export SPARK_SUBMIT_OPTS="$KRB_DEBUG_OPTS"
export HADOOP_JAAS_DEBUG=true
export SPARK_PRINT_LAUNCH_COMMAND=True
spark-submit --master yarn-client \
--files "/etc/spark/conf/log4j.properties#yarn-log4j.properties" \
--principal [email protected] --keytab /a/b/XX.keytab \
--conf spark.yarn.tokens.hbase.enabled=true \
--conf spark.driver.extraClassPath=$EXTRA_HBASE_CP \
--conf spark.executor.extraClassPath=$EXTRA_HBASE_CP \
--conf "spark.executor.extraJavaOptions=$KRB_DEBUG_OPTS -Dlog4j.configuration=yarn-log4j.properties" \
--conf spark.executorEnv.HADOOP_JAAS_DEBUG=true \
--class TestSparkHBase TestSparkHBase.jar
spark-submit --master yarn-cluster --conf spark.yarn.report.interval=4000 \
--files "/etc/spark/conf/log4j.properties#yarn-log4j.properties" \
--principal [email protected] --keytab /a/b/XX.keytab \
--conf spark.yarn.tokens.hbase.enabled=true \
--conf spark.driver.extraClassPath=$EXTRA_HBASE_CP \
--conf "spark.driver.extraJavaOptions=$KRB_DEBUG_OPTS -Dlog4j.configuration=yarn-log4j.properties" \
--conf spark.driverEnv.HADOOP_JAAS_DEBUG=true \
--conf spark.executor.extraClassPath=$EXTRA_HBASE_CP \
--conf "spark.executor.extraJavaOptions=$KRB_DEBUG_OPTS -Dlog4j.configuration=yarn-log4j.properties" \
--conf spark.executorEnv.HADOOP_JAAS_DEBUG=true \
--class TestSparkHBase TestSparkHBase.jar
PS:使用HBaseContext
當你不需要/etc/hbase/conf/
在執行程序的CLASSPATH,通過conf自動傳播。
PPS:我勸你設置log4j.logger.org.apache.zookeeper.ZooKeeper=WARN
在log4j.properties
,因爲它是冗長的,無用的,甚至是混亂的(所有有趣的東西記錄在HBase的水平)
PPS:不是那個冗長SPARK_SUBMIT_OPTS
變種,你也可以靜態列出$SPARK_CONF_DIR/log4j.properties
中的Log4J選項,其餘爲$SPARK_CONF_DIR/java-opts
;這同樣適用於在$SPARK_CONF_DIR/spark-defaults.conf
和env變量星火性質$SPARK_CONF_DIR/spark-env.sh
¤¤¤¤¤
關於 「星火連接器」 到HBase的
摘自official HBase documentation,第83章基本星火
所有Spark和HBase集成的根源是HBaseContext
。 HBaseContext
接受HBase配置並將它們推送到Spark執行器的 。這樣我們就可以在一個靜態位置上爲每個 Spark Executor建立一個HBase連接。
文檔中未提及的是,HBaseContext
自動使用HBase「授權令牌」(當存在時)來驗證執行者。
還要注意,doc在RDD上有一個Spark foreachPartition
操作的示例(在Scala中,然後是Java),使用BufferedMutator
將異步批量加載到HBase中。