cloudera

    0熱度

    1回答

    我試圖在cloudera中運行下面的命令並獲取鏈接失敗錯誤。我試圖重啓mysqld服務,沒用。請幫助一些朋友。 代碼和錯誤: [Cloudera的@快速入門〜] $ sqoop列表數據庫--connect 「的jdbc:mysql的://quickstart.cloudera:3306」 --username = retail_dba --password = Cloudera的 警告:/usr/

    0熱度

    1回答

    我們的Hadoop集羣每天報告有「低複製塊」。它通過Cloudera Manager進行管理。健康警語的一個例子是: ! Under-Replicated Blocks Concerning: 767 under replicated blocks in the cluster. 3,115 total blocks in the cluster. Percentage under replica

    0熱度

    1回答

    我們正在面對Cloudera CDH 5.8.5中與Sqoop v1.4.6的錢包利用有關的一些問題。我們的方案: 用戶文件夾:/家/ myuser的 錢包夾:/家/ myuser的/錢包(cwallet.sso,cwallet.sso.lck,ewallet.p12,電子錢包。 p12.lck,sqlnet.ora中,tnsnames.ora中) 錢包是公配置爲如果用完 sqlplus /@MY

    0熱度

    1回答

    有沒有什麼辦法可以使用除時間戳以外的列值自動執行sqoop導入。我試圖在我的表格中使用一列(ID)。但它沒有奏效。以下是示例代碼,我正在使用cloudera hadoop UI進行自動化。問題是最後一個沒有自動更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

    0熱度

    1回答

    我有一個5節點cluster.I使用pyspark將一個100k csv文件加載到數據幀並執行一些etl操作並將輸出寫入parquet文件。 當我加載數據框時,如何將數據集統一劃分到每個執行器處理20k記錄的所有執行者OS中。

    -1熱度

    1回答

    我試圖在我的Cloudera VM 5.10中安裝Scala IDE 4.7,它分別預先配置了JDK 1.7,Spark 1.6版本。 因此,我通過卸載Cloudera提供的位於/usr/java/jdk1.7的默認JDK,在/ opt/location中安裝了jdk 1.8。我在.bash_profile中添加了Java環境變量。我成功地安裝了Scala IDE。 但現在Hadoop的所有生態系

    0熱度

    2回答

    下面是我的數據框和代碼 df= a b c d 1 3 10 110 2 5 12 112 3 6 17 112 4 8 110 442 下面是我的代碼 spark =SparkSession.builder.appName('dev_member_validate_spark').config('spark.sql.crossJoin.enabled','true').g

    0熱度

    1回答

    我在做Cloudera教程,並執行「4.使用spark-submit提交應用程序」。我做錯了什麼,以便運行教程失敗?我從/ bin文件夾中找到spark-shell和spark-submit,但沒有Spark-slass。 https://www.cloudera.com/documentation/enterprise/5-5-x/topics/spark_streaming.html#stre

    2熱度

    1回答

    我從Cloudera quickstart docker容器上的Python Spark(v 1.6.0)開始。 我把一個靜態 .txt文件(500 MB)放在hdfs下的/user/root/access_log.txt文件中。 在pyspark我試着將文件加載用TE以下行的Python代碼: lines = sc.textFile("hdfs://quickstart.cloudera/use

    0熱度

    1回答

    已將Cloudera VM和加載的數據文件安裝到HDFS中。命令「hadoop fs -ls /」幫助我驗證hdfs中的數據。但想知道它所在的物理位置? 任何建議都會有所幫助。