hadoop

    1熱度

    3回答

    我有一個名爲geo_data_display的字段,其中包含國家,地區和dma。這3個值包含在第一個「=」和第一個「&」之間的字符,第二個「=」和第二個「&」之間的區域和第三個「=」和第三個「=」之間的DMA之間的國家, &「。這是一個可重新生成的表格。國家總是字符,但地區和DMA可以是數字或字符和DMA不存在所有國家。 幾個樣本值是: country=us®ion=tx&dma=625&d

    -1熱度

    1回答

    我想構建一個運行sqoop作業的Java應用程序,執行一些hdfs操作並更改配置單元中的元數據。 爲了實現這一切,我創建了一個maven項目,但是我一直遇到依賴項問題。 有人可以給我一個例子pom.xml,所以我可以開始寫我的應用程序? 謝謝!

    0熱度

    1回答

    Hadoop的行業標準複製因子是3.那麼這是否意味着如果有100 GB的數據,那麼在HDFS中它將被存儲爲300 GB?

    0熱度

    1回答

    我試圖在此之後在Ubuntu 14.04上部署Nutch 2.3 + ElasticSearch 1.4 + HBase 0.94 tutorial。當我嘗試啓動爬行注入的URL做: $NUTCH_ROOT/runtime/local/bin/nutch inject urls 我得到: InjectorJob: starting at 2017-10-12 19:27:48 Injecto

    1熱度

    2回答

    這是我們組中的一個普遍問題,我們的Hive查詢經常會擴展,以佔用我們CDH羣集上大多數可用的YARN執行程序和內存。雖然底層問題出在我們表格的分區數量和連接的複雜性上,但我們不能自由地重建這些表格。我們可以通過配置spark.dynamicAllocation.maxExecutors和spark.executor.memory來控制Spark中的資源消耗。我們可以在Hue上使用類似的東西,這樣H

    0熱度

    1回答

    改變減速機的輸出名稱分區在我的Hadoop編程我想提供自定義輸出名稱爲減速機可以說這裏是代碼片段 import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text;

    0熱度

    1回答

    我已經用2.3.1配置了Apache Hadoop 2.7.4,Hbase 1.2.6和Solr 6.6.1。我mapred-site.xml所有節點上是 <property> <name>mapreduce.jobtracker.address</name> <value>master:9001</value> </property> <property> <

    1熱度

    2回答

    我在具有大約80列的配置單中的表中有多個列。我需要在某些列上應用distinct子句,並從其他列中獲取第一個值。下面是我想要實現的內容。 select distinct(col1,col2,col3),col5,col6,col7 from abc where col1 = 'something'; 上面提到的所有列都是文本列。所以我不能應用分組和聚合函數。

    0熱度

    1回答

    配置PySpark和Anaconda3這裏是我到目前爲止所採取的步驟: 我安裝Anaconda3和包含在目錄$HOME/anaconda3/bin一切。 我cd'ed到$HOME/anaconda3/bin並運行命令./conda install -c conda-forge pyspark。它成功了。 我什麼也沒做。更具體地講,有沒有在我的.bashrc 這裏設置變量的一些重要的細節: 我運行H

    0熱度

    1回答

    我有一個用於連接到MySQL的應用程序,我有這方面Hibernate配置 這樣的: <hibernate-configuration> <session-factory> <property name="hibernate.dialect">org.hibernate.dialect.MySQLDialect</property> <property name="