我正在學習hadoop,我正在做一個可以作爲大數據項目投入生產的項目的實驗。無論如何,我只是用少量數據做一些測試。該方案是爲後續還有的是我在豬加載如下JSON文件bounch:爲什麼我的任務不能在Pig中同時運行?
a = load 's3n://mybucket/user_*.json' using com.twitter.elephantbird.pig.load.JsonLoader('-nestedLoad') AS (json:map []);
b = FOREACH a GENERATE flatten(json#'user') as (m:map[]) ;
比方說文件是小,他們只包含一個對象,但有他們的bounch。我假設FOREACH可以同時並行打開更多文件,我錯了嗎? 程序需要一段時間才能在amazon c3.xlarge istance上運行約10秒,並且大約有400個文件。我敢肯定,如果我在C#中完成一個程序,它將需要幾分之一秒的時間運行,我錯在哪裏?
C#可以在幾秒鐘內從s3中讀取數百個文件?我不知道 –
在任何情況下,如果你想並行處理,使用Spark,而不是Pig –
@ cricket_007所以s3是瓶頸?但無論如何,我應該看到不止一個映射器運行? –