2017-08-11 81 views
1

我以獨立模式運行Spark。它讀取幾個文件作爲RDD,處理它們,將結果合併到單個數據幀中,並將數據幀保存到本地磁盤中的parquet文件中。抑制Spark實驗中的日誌記錄

df.write.mode(SaveMode.Overwrite).parquet(output) 

該過程產生有噪聲的輸出。我有記錄的30GB的(我的輸出拼花文件小於10倍!),主要是在這個喜歡格式:

root 
|-- column1: string (nullable = true) 
|-- column2: string (nullable = true) 
|-- column3: string (nullable = true) 
|-- column4: string (nullable = true) 
|-- column5: string (nullable = true) 

我怎樣才能抑制輸出?

我已經試過標準壓制技巧,他們都沒有幫助。

sc.setLogLevel("FATAL") 

Logger.getLogger("org").setLevel(Level.OFF) 
Logger.getLogger("akka").setLevel(Level.OFF) 

回答

2

添加在​​中使用的罐子的根目錄中的log4j.properties。或者,如果你正在使用intellij把它放在src/main/resources

廣場下面的log4j.properties

# Set everything to be logged to the file bagel/target/unit-tests.log 
log4j.rootCategory=WARN, console 
log4j.appender.console=org.apache.log4j.ConsoleAppender 
log4j.appender.console.target=System.err 
log4j.appender.console.layout=org.apache.log4j.PatternLayout 
log4j.appender.console.layout.ConversionPattern=%d{yy/MM/dd HH:mm:ss} %p %c{1}: %m%n 

# Ignore messages below warning level from Jetty, because it's a bit verbose 
# Settings to quiet third party logs that are too verbose 
log4j.logger.org.eclipse.jetty=WARN 
log4j.logger.org.eclipse.jetty.util.component.AbstractLifeCycle=ERROR 
log4j.logger.org.apache.spark.repl.SparkIMain$exprTyper=INFO 
log4j.logger.org.apache.spark.repl.SparkILoop$SparkILoopInterpreter=INFO 
log4j.logger.org.apache.spark=WARN 
log4j.logger.parquet=ERROR 
log4j.logger.org.apache.spark.sql.execution.datasources.parquet=ERROR 
log4j.logger.org.apache.spark.sql.execution.datasources.FileScanRDD=ERROR 
log4j.logger.org.apache.hadoop.io.compress.CodecPool=ERROR 

更新內部更加堅實的方式來抑制記錄:

添加上述log4j.properties$SPARK_HOME/conf DIR。

+0

我試過這種方法和@Denis方法 - 這些都不起作用。我看到日誌記錄設置已更改(某些日誌被壓制),但我仍然有很多類似於模式的消息「root | - column1:string ...」。 –

+2

@DmitryPetrov嘗試將'log4j.properties'添加到'$ SPARK_HOME/conf'目錄中。重新啓動火花服務器並報告結果。 – javadba

+0

它沒有幫助。我仍然有巨大的輸出與模式:( –

1

我用下面的方法:

def suppressParquetLogging(): Unit = { 
    // Based on https://issues.apache.org/jira/browse/SPARK-8118 
    val contents = 
     """ 
     |org.apache.parquet.handlers=java.util.logging.ConsoleHandler 
     |java.util.logging.ConsoleHandler.level=SEVERE 
     """.stripMargin 
    val inputStream = new ByteArrayInputStream(contents.getBytes(StandardCharsets.UTF_8)) 
    java.util.logging.LogManager.getLogManager.readConfiguration(inputStream) 
    } 

它假定你不正常使用java.util.logging.LogManager中用於記錄