cloudera

    0熱度

    2回答

    我想列出CM的配置值。所以我有這樣的代碼,正在型動物羣(5.9.1,5.10.0和5.8.3): from cm_api.api_client import ApiResource cm_host = "XX.XX.70.12" api = ApiResource(cm_host, username="supervision-user", password="XXXXXX") cm_co

    1熱度

    2回答

    我正在與Impala合作,並使用下面的某種模式從數據庫中提取表格列表。 假設我有一個數據庫bank,此數據庫下的表如下所示。 cust_profile cust_quarter1_transaction cust_quarter2_transaction product_cust_xyz .... .... etc 現在我像過濾 show tables in bank like '

    0熱度

    2回答

    我對AWS上的CDH部署有些疑問。我閱讀了參考架構文檔和我在Cloudera Engineering Blog上找到的其他資料,但我需要更多關於它的建議。 1)CDH部署是否僅適用於某種實例,或者我可以將它部署在所有AWS實例類型上? 2)假設我想創建一個24x7活動的集羣。對於長期運行的集羣,我知道最好有一個基於本地存儲實例的集羣。如果我們考慮一組2PB,我認爲d2.8xlarge應該是data

    0熱度

    1回答

    剛剛開始使用Spark和Scala。我們在我們的開發cloudera hadoop集羣上安裝了Spark 2,並且正在使用spark2-shell。我正在閱讀一本書來學習一些基礎知識。它的例子顯示的println(富)而不做收集工作,但是這不是爲我工作: scala> val numbers = sc.parallelize(10 to 50 by 10) numbers: org.apache

    0熱度

    1回答

    我們遇到了Solr批量索引的一些性能問題:我們有一個由4名工作人員組成的集羣,每個工作人員都配有32個內核和256GB的RAM。 YARN被配置爲使用100個vCore和785.05GB內存。 HDFS存儲由通過10Gb接口連接的EMC Isilon系統管理。我們的集羣運行CDH 5.8.0,具有Solr 4.10.3的功能,並且它已被Kerberized化。 利用目前的設置,說到壓縮數據,我們可

    1熱度

    1回答

    當使用Cloudera的經理我可以通過接入到HDFS-site.xml文件: Cloudera的經理>羣集> HDFS>實例>(NameNode的,例如)>加工處理 配置文件> HDFS-site.xml中 然後URL指向: http://quickstart.cloudera:7180/cmf/process/8/config?filename=hdfs-site.xml 是該文件通過文件系統直

    0熱度

    1回答

    我在macbook上安裝了CDH,安裝似乎沒有任何錯誤。 現在,當我運行它,我看到一個失敗的項目在控制檯日誌中: 開始色調:G [失敗] 和色調快速入門頁面(本地主機:8888)講述的錯誤配置: Checking current configuration Configuration files located in /etc/hue/conf.empty Potential misconfi

    0熱度

    1回答

    我使用Cloudera的快速入門使用Java實現的Hadoop項目時加載類: 我Cloudera的,快速入門版本是5.8.0 這裏的錯誤信息: SLF4J: Failed to load class "org.slf4j.impl.StaticLoggerBinder". SLF4J: Defaulting to no-operation (NOP) logger implementation

    -1熱度

    3回答

    在Hadoop文件系統上執行更新的最佳方法是什麼?對於實例,我有一個包含數據的avro文件,爲了下一次運行,我需要更新avro文件本身中的數據。我們如何解決這個問題? 例:我對HDFS以下數據,需要更新的 「街道」 數組下一次 { 「名稱」 爲: 「DistrictName」, 「_class」: 「org.bitbucket .codezarvis.api.dto.DistrictDocumen

    0熱度

    1回答

    我在星火(pySpark)和輸出連接的兩個數據集在VM Cloudera的URL路徑看起來喜歡這個 (u'SomeThing', (u'ABC', u'500')) 我想做到以下幾點: 定義提取並返回僅ABC功能,500我寫了這樣的 def extract_lasttwo_cols(three_cols): a,b,c = three_cols.split(',')