hadoop

4熱度

1回答

我移動從舊的Hadoop集羣的一些軟件映射內（使用用戶名/密碼認證）到較新的一個，具有Kerberos身份驗證 2.6.0-cdh5.12.0啓用。我已經能夠使用AccumuloInput/OutputFormat類中設置的DelegationToken來使許多使用Accumulo的輸入和/或輸出的Map/Reduce作業正常工作。但是，我有1個工作，它使用AccumuloInput/Outp

0熱度

1回答

結果在一個空RDD

轉型我有一個RDD（combinerRDD），關於這一點我在下面加改造 JavaPairRDD<String, Integer> counts = combinerRDD.mapToPair( new PairFunction<Tuple2<LongWritable, Text>, String, Integer>() { String filename;

0熱度

1回答

是否可以使用沒有TRIM功能的SQOOP導入表？

我有一個SQOOP作業，可以將數據直接從Oracle數據庫加載到Microsoft Azure HDInsights Hadoop集羣上的Hive模式。雖然，當導入char基於字段（如varchar變量）時，我發現它們被導入爲字符串。這沒有錯，它對我來說非常完美。但是，有一個小麻煩，這就是Hive數據庫中的字符串字段佔用該字段的最大長度。這意味着每次我在該領域執行條件時都會使用TRIM功能。是否有

0熱度

2回答

如何從JavaSparkContext

在一些星火代碼得到HiveContext，我已經看到了程序員使用這樣的代碼來創建SparkContext SparkSession session = SparkSession .builder() .appName("Spark Hive Example") .config("spark.sql.warehouse.dir", warehouseLocatio

0熱度

1回答

spark-submit，客戶無法通過以下方式進行身份驗證：[TOKEN，KERBEROS];

我用kerberos設置hadoop集羣，但是當我運行spark-submit時，它拋出異常。 17/10/19 08:46:53 WARN scheduler.TaskSetManager: Lost task 0.0 in stage 0.0 (TID 0, 192.168.92.4, executor 1): java.io.IOException: Failed on local exce

0熱度

1回答

如何在Hive中將原始日期作爲分區插入表中？

create table h5_qti_desc (h5id string, query string, title string, item string, query_ids string, title_ids string, item_ids string, label bigint )PARTITIONED BY (

1熱度

1回答

蜂巢加入2桌人有其他分區不

我不得不表讓說，表中的一個是X和表二是Z. 表Z有一個分區謂語。表X是具有以下字段 country_id, country_name 表Z含有一些數據的國家表，我想該表的country_id與表X映射我想這 select c.country_id, c.country_name, s.sales_id, s.sales_ctry_id from x_table c join z_table

-1熱度

1回答

使用combineByKey將輸出作爲（鍵，可迭代[值]）

我試圖將RDD(key,value)轉換爲RDD(key,iterable[value])，與groupByKey方法返回的輸出相同。但由於groupByKey效率不高，我試圖在RDD上使用combineByKey，但它不起作用。下面是使用的代碼： val data= List("abc,2017-10-04,15.2", "abc,2017-10-03,19.67",

0熱度

1回答

原始日誌的Hadoop體系結構，但也包含點擊和視圖

不確定用於以下數據的體系結構。我在看下面的數據格式和容量：在查詢字符串持有信息生API Apache日誌（每天約15G） JSON點擊和瀏覽的廣告 - 約每天3m條目。這導致我尋找設置HDFS集羣並使用fluentd或flume加載apache日誌的選項。這一切看起來不錯，但我不明白的是何時或如何解析apache日誌以從查詢字符串和路徑中提取信息。例如：「/ home/category1 /

0熱度

1回答

HDFS不復制塊

我最近安裝了Hadoop（Cloudera）。我遇到了一個錯誤，我在複製塊下（在Cloudera Manager中，它是安裝的GUI）。所以，當我運行 hdfs dfsadmin -report 我得到 Configured Capacity: 555730632704 (517.56 GB) Present Capacity: 524592504832 (488.56 GB) DFS R