2014-09-03 34 views
2

我已經創建了一個將JSON格式轉換爲AVRO格式的PHP項目。 原始項目需要PHP庫,我不知道如何添加EMR。如何在AWS EMR流式集羣中包含PHP所需的庫

這是EMR收到stderr日誌:

PHP Warning: require_once(vendor/autoload.php): failed to open stream: No such file or  directory in /mnt/var/lib/hadoop/tmp/nm-local-dir/usercache/hadoop/filecache/12/convert-json-to-avro.php on line 3 
PHP Fatal error: require_once(): Failed opening required 'vendor/autoload.php' (include_path='.:/usr/share/pear:/usr/share/php') in /mnt/var/lib/hadoop/tmp/nm-local- dir/usercache/hadoop/filecache/12/convert-json-to-avro.php on line 3 
log4j:WARN No appenders could be found for logger (amazon.emr.metrics.MetricsUtil). 
log4j:WARN Please initialize the log4j system properly. 
log4j:WARN See http://logging.apache.org/log4j/1.2/faq.html#noconfig for more info. 

這裏是映射器的主要代碼:我使用的規定,autoload.php是下require_once 'vendor/autoload.php';

#!/usr/bin/php 
<?php 
require_once 'vendor/autoload.php'; 

error_reporting(E_ALL); 
ini_set('display_errors', 1); 

$outputFile = __DIR__ . '/test_avro_out.avr'; 
$avroJsonSchema = file_get_contents(__DIR__ . '/HttpRequestEvent.avsc'); 
// Open $file_name for writing, using the given writer's schema 
$avroWriter = AvroDataIO::open_file($outputFile, 'w', $avroJsonSchema); 
$counter = 1; 
while (($buf = fgets(STDIN)) !== false) { 
    try { 
     //replace ,null: with ,"null": to prevent map keys which are not strings. 
     $original = array("null:","userIp"); 
     $replaceWith = array("\"null\":", "userIP"); 
     $data = json_decode(str_replace($original, $replaceWith, $buf), true); 
     //print_r($buf); 
     if ($data === false || $data == null) { 
      throw new InvalidArgumentException("Unable to parse JSON line"); 

     } 

     $mapped = map_request_event($data); 
     var_dump($mapped); 

     //$avroWriter->append($mapped); 

     //echo json_encode($mapped), "\n"; 
    } catch (Exception $ex) { 
     fprintf(STDERR, "Caught exception: %s\n", $ex->getMessage()); 
     fprintf(STDERR, "Line num: %s\n",$counter); 
     fprintf(STDERR, "buf: %s\n", $buf); 
    } 
    $counter++; 
} 
$avroWriter->close(); 

公告文件夾供應商。

什麼是將供應商文件夾加載到EMR集羣中的正確方法(那裏有需要的文件)? require_once路徑應該改變嗎?

謝謝。

+1

您是否檢查了可以在作業之前添加的引導操作(http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html#bootstrapCustom)? – Guy 2014-09-06 13:02:03

+0

謝謝蓋伊!那就是訣竅。嘗試了許多其他方法,但這一個工作。 – dudu1982 2014-09-08 08:42:29

回答

0

以下Guy的評論我已經使用了一個類似於你可以找到的bash腳本here

我已將代碼中的require_once 'vendor/autoload.php'行更改爲指向放置文件的位置。 (/home/hadoop/contents工作完美)。 最後,我添加了EMR引導自定義步驟,您可以在其中添加bash腳本,以便它可以在PHP流式傳輸步驟之前運行。

相關問題