hadoop

    0熱度

    1回答

    我在HDFS上有一個路徑爲/user/xyz/ data的目錄 我無法訪問它。他們的 我已經試過 hdfs dfs -ls /user/xyz/ data hdfs dfs -ls "/user/xyz/ data" hdfs dfs -ls "/user/xyz/ *data" hdfs dfs -ls "/user/xyz/\ data" 都不是匹配的。 什麼是訪問它的最佳方

    0熱度

    1回答

    想象一下,你有一個歷史數據,每天有數百萬行的數據被添加到它。有必要每天處理整個數據並更新變量。您如何使用大數據平臺解決這個問題? 如果需要,歡迎提供更多細節。

    0熱度

    1回答

    嘗試在UDF中逐個發送列的列表,但使用for循環但出現錯誤,即數據框未找到col_name。目前在列表list_col我們有兩列,但它可以改變。所以我想寫一個代碼,它適用於列的每一個列表。在這段代碼中,我一次連接一列的行,行的值是結構格式即列表中的列表。對於每一個空,我必須給空間。 list_col=['pcxreport','crosslinediscount'] def struct

    0熱度

    1回答

    優化在基於Yarn的羣集上部署的Spark Jobs的最佳方式是什麼? 。 尋找基於配置而非代碼級別的更改。我的問題是經典設計級別的問題,應該使用什麼方法來優化Spark Streaming或Spark SQL上開發的作業。

    1熱度

    1回答

    我正在處理大型數據集並在其上運行Mapreduce程序。我可以輕鬆地在單個文件上運行Mapreduce,大小約爲3 GB。知道我想在所有文件上運行mapreduce。是否有任何捷徑或技術直接在所有文件上運行mapreduce。 使用OS-Ubuntu Hadoop-2.7.1

    0熱度

    1回答

    Hortonworks Data Platform(HDP)中的HBase如何與Apache HBase不同。我們在生產中使用HDP,但是爲了開發目的,使用Apache HBase進行測試。 我們應該在我們的代碼中做些什麼來允許任何差異?

    1熱度

    1回答

    我已經安裝了spark版本:spark-2.2.0-bin-hadoop2.7。 我使用Windows 10 OS 我的Java版本1.8.0_144 我已經把我的環境變量: SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

    0熱度

    1回答

    有沒有什麼辦法可以使用除時間戳以外的列值自動執行sqoop導入。我試圖在我的表格中使用一列(ID)。但它沒有奏效。以下是示例代碼,我正在使用cloudera hadoop UI進行自動化。問題是最後一個沒有自動更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

    0熱度

    1回答

    我下面一些例子來嘗試使用以下,以獲得DistributedFileSystem,但是我發現下面的返回廢棄的錯誤 FileSystem fs=FileSystem.get(conf); DistributedFileSystem hdfs = (DistributedFileSystem) fs; 異常在線程「主要」 java.lang.ClassCastException: org.apac

    -1熱度

    1回答

    我想知道目前最常用的CDH版本及其所有軟件版本的詳細信息。 I.e .:如果CDH 5.6那麼這個軟件包中的MapReduce,Hive,Impala,Sqoop等版本是什麼。