hadoop2

    0熱度

    2回答

    我是Hadoop和pig的新手。根據問題我能夠深入研究,直到下面的腳本,但我怎麼能比較個人的薪水與他的部門的平均工資。以下是寫入得到各部門的平均工資腳本 A = LOAD 'Assignment_1_Input.log' USING PigStorage('\t') as (id:int,name:chararray,age:int,salary:int,deptid:int); B = GRO

    2熱度

    1回答

    蜂巢外殼起步,但每當我在炮彈擊中任何命令,說 蜂巢>節目數據庫; 我收到以下錯誤: 失敗:SemanticException org.apache.hadoop.hive.ql.metadata.HiveException:了java.lang.RuntimeException:無法實例org.apache.hadoop.hive.ql .metadata.SessionHiveMetaStore

    0熱度

    1回答

    我有問題從YARN上運行的Spark羣集以外的機器提交spark-submit遠程作業。 Exception in thread "main" java.net.ConnectionException: Call from remote.dev.local/192.168.10.65 to target.dev.local:8020 failed on connection exception:

    0熱度

    1回答

    我需要實現一個用例,我需要用來自任何源系統的hdfs文件夾中的最新文件更新配置單元表。我沒有在這裏使用sqoop。 我應該定期從源系統接收更新的文件到特定的HDFS位置(比如/tmp/emp.csv)。我已經在配置單元中創建了託管/內部表,並且第一次手動將數據加載到該表中。 因此,我的最新員工表(在配置單元中創建,倉庫位於默認位置 -/user/hive/warehouse)將擁有emp.csv文

    0熱度

    1回答

    我下面一些例子來嘗試使用以下,以獲得DistributedFileSystem,但是我發現下面的返回廢棄的錯誤 FileSystem fs=FileSystem.get(conf); DistributedFileSystem hdfs = (DistributedFileSystem) fs; 異常在線程「主要」 java.lang.ClassCastException: org.apac

    0熱度

    1回答

    取名字空間信息 無法啓動備用的NameNode。我從官方文檔驗證了我的配置。

    1熱度

    2回答

    我有點困惑YARN和MR2之間。他們一樣嗎?我已經看到YARN作爲在某些文檔中運行分佈式應用程序的平臺,而MapReduce就是這樣的分佈式應用程序,那是什麼意思?這是一個由程序員構建的MapReduce應用程序(例如:wordcount程序)嗎? 我再次看到「編寫自己的YARN應用程序」,那是什麼意思?一個wordcount程序屬於哪個類別,一個YARN應用程序或一個MR2應用程序? 請相關問題

    1熱度

    1回答

    有人可以解釋一下使用HCatalog在pigScript中使用蜂巢的哪個文件格式是有效的。 我想知道哪些配置單元文件格式將是有效的,因爲目前我們有一個基於日期的分區配置單元表和基礎文件是一個順序文件。 80天的數據讀取創建了大約70,000個非常龐大的映射器。試圖改變地圖拆分大小爲2GB,並沒有減少很多。 因此,而不是順序文件尋找其他選項,這將減少映射器的數量。每個數據的數據大小爲9GB。 有任何

    -1熱度

    1回答

    我想構建一個運行sqoop作業的Java應用程序,執行一些hdfs操作並更改配置單元中的元數據。 爲了實現這一切,我創建了一個maven項目,但是我一直遇到依賴項問題。 有人可以給我一個例子pom.xml,所以我可以開始寫我的應用程序? 謝謝!

    1熱度

    1回答

    我第一次嘗試是: CREATE TABLE t1 ( a string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE ; 但是,其結果是: CREATE TABLE t1 ( a string) ROW FORMAT DELIMITED