hadoop

    4熱度

    1回答

    我移動從舊的Hadoop集羣的一些軟件映射內(使用用戶名/密碼認證)到較新的一個,具有Kerberos身份驗證 2.6.0-cdh5.12.0啓用。 我已經能夠使用AccumuloInput/OutputFormat類中設置的DelegationToken來使許多使用Accumulo的輸入和/或輸出的Map/Reduce作業正常工作。 但是,我有1個工作,它使用AccumuloInput/Outp

    0熱度

    1回答

    轉型我有一個RDD(combinerRDD),關於這一點我在下面加改造 JavaPairRDD<String, Integer> counts = combinerRDD.mapToPair( new PairFunction<Tuple2<LongWritable, Text>, String, Integer>() { String filename;

    0熱度

    1回答

    我有一個SQOOP作業,可以將數據直接從Oracle數據庫加載到Microsoft Azure HDInsights Hadoop集羣上的Hive模式。雖然,當導入char基於字段(如varchar變量)時,我發現它們被導入爲字符串。這沒有錯,它對我來說非常完美。但是,有一個小麻煩,這就是Hive數據庫中的字符串字段佔用該字段的最大長度。這意味着每次我在該領域執行條件時都會使用TRIM功能。是否有

    0熱度

    2回答

    在一些星火代碼得到HiveContext,我已經看到了程序員使用這樣的代碼來創建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

    0熱度

    1回答

    我用kerberos設置hadoop集羣,但是當我運行spark-submit時,它拋出異常。 17/10/19 08:46:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.92.4, executor 1): java.io.IOException: Failed on local exce

    0熱度

    1回答

    create table h5_qti_desc (h5id string, query string, title string, item string, query_ids string, title_ids string, item_ids string, label bigint )PARTITIONED BY (

    1熱度

    1回答

    我不得不表讓說,表中的一個是X和表二是Z. 表Z有一個分區謂語。 表X是具有以下字段 country_id, country_name 表Z含有一些數據的國家表,我想該表的country_id與表X映射 我想這 select c.country_id, c.country_name, s.sales_id, s.sales_ctry_id from x_table c join z_table

    -1熱度

    1回答

    我試圖將RDD(key,value)轉換爲RDD(key,iterable[value]),與groupByKey方法返回的輸出相同。 但由於groupByKey效率不高,我試圖在RDD上使用combineByKey,但它不起作用。下面是使用的代碼: val data= List("abc,2017-10-04,15.2", "abc,2017-10-03,19.67",

    0熱度

    1回答

    不確定用於以下數據的體系結構。 我在看下面的數據格式和容量:在查詢字符串持有信息 生API Apache日誌(每天約15G) JSON點擊和瀏覽的廣告 - 約每天3m條目。 這導致我尋找設置HDFS集羣並使用fluentd或flume加載apache日誌的選項。這一切看起來不錯,但我不明白的是何時或如何解析apache日誌以從查詢字符串和路徑中提取信息。例如:「/ home/category1 /

    0熱度

    1回答

    我最近安裝了Hadoop(Cloudera)。我遇到了一個錯誤,我在複製塊下(在Cloudera Manager中,它是安裝的GUI)。所以,當我運行 hdfs dfsadmin -report 我得到 Configured Capacity: 555730632704 (517.56 GB) Present Capacity: 524592504832 (488.56 GB) DFS R