hadoop

0熱度

1回答

我在HDFS上有一個路徑爲/user/xyz/ data的目錄我無法訪問它。他們的我已經試過 hdfs dfs -ls /user/xyz/ data hdfs dfs -ls "/user/xyz/ data" hdfs dfs -ls "/user/xyz/ *data" hdfs dfs -ls "/user/xyz/\ data" 都不是匹配的。什麼是訪問它的最佳方

0熱度

1回答

每天處理10行B數據以創建變量（計算列）的最佳方法是什麼？

想象一下，你有一個歷史數據，每天有數百萬行的數據被添加到它。有必要每天處理整個數據並更新變量。您如何使用大數據平臺解決這個問題？如果需要，歡迎提供更多細節。

0熱度

1回答

Pyspark：在UDF中通過動態列

嘗試在UDF中逐個發送列的列表，但使用for循環但出現錯誤，即數據框未找到col_name。目前在列表list_col我們有兩列，但它可以改變。所以我想寫一個代碼，它適用於列的每一個列表。在這段代碼中，我一次連接一列的行，行的值是結構格式即列表中的列表。對於每一個空，我必須給空間。 list_col=['pcxreport','crosslinediscount'] def struct

0熱度

1回答

|性能調整和優化

優化在基於Yarn的羣集上部署的Spark Jobs的最佳方式是什麼？。尋找基於配置而非代碼級別的更改。我的問題是經典設計級別的問題，應該使用什麼方法來優化Spark Streaming或Spark SQL上開發的作業。

1熱度

1回答

如何同時在大量文件上運行mapreduce程序？

我正在處理大型數據集並在其上運行Mapreduce程序。我可以輕鬆地在單個文件上運行Mapreduce，大小約爲3 GB。知道我想在所有文件上運行mapreduce。是否有任何捷徑或技術直接在所有文件上運行mapreduce。使用OS-Ubuntu Hadoop-2.7.1

0熱度

1回答

HBase如何封裝在不同於Apache HBase的HDP中

Hortonworks Data Platform（HDP）中的HBase如何與Apache HBase不同。我們在生產中使用HDP，但是爲了開發目的，使用Apache HBase進行測試。我們應該在我們的代碼中做些什麼來允許任何差異？

1熱度

1回答

ipython不被識別爲內部或外部命令（pyspark）

我已經安裝了spark版本：spark-2.2.0-bin-hadoop2.7。我使用Windows 10 OS 我的Java版本1.8.0_144 我已經把我的環境變量： SPARK_HOME D:\spark-2.2.0-bin-hadoop2.7 HADOOP_HOME D:\Hadoop (where I put bin\winutils.exe) PYSPARK_DRIVER_

0熱度

1回答

使用cloudera hadoop自動化sqoop增量UI

有沒有什麼辦法可以使用除時間戳以外的列值自動執行sqoop導入。我試圖在我的表格中使用一列（ID）。但它沒有奏效。以下是示例代碼，我正在使用cloudera hadoop UI進行自動化。問題是最後一個沒有自動更新的值。 import --connect jdbc:mysql://172.26.122.123:3306/books --username

0熱度

1回答

如何獲得DistributedFileSystem？

我下面一些例子來嘗試使用以下，以獲得DistributedFileSystem，但是我發現下面的返回廢棄的錯誤 FileSystem fs=FileSystem.get(conf); DistributedFileSystem hdfs = (DistributedFileSystem) fs; 異常在線程「主要」 java.lang.ClassCastException： org.apac

-1熱度

1回答

哪裏可以找到CDH及其所有軟件版本？

我想知道目前最常用的CDH版本及其所有軟件版本的詳細信息。 I.e .:如果CDH 5.6那麼這個軟件包中的MapReduce，Hive，Impala，Sqoop等版本是什麼。