hbase

0熱度

1回答

Hortonworks Data Platform（HDP）中的HBase如何與Apache HBase不同。我們在生產中使用HDP，但是爲了開發目的，使用Apache HBase進行測試。我們應該在我們的代碼中做些什麼來允許任何差異？

0熱度

1回答

我設計了HBase表，我的rowkey被驅動到我需要運行的查詢。遵循最佳實踐，我將一個散列部分作爲我的rowkeys的前綴，試圖在我的表區域儘可能均勻地分散行。我擔心以下情形：我在3個區之間我的HBase的表拆分了數十億行的。我使用此表爲REST API提供數據，因此，它需要儘可能快地提供行。不幸的是，我打了著名超時錯誤Failed to get result within timeout,

0熱度

1回答

我如何可以採取的HBase集羣的快照在單個快照不表是否明智？

我想利用我的全HBase的集羣不是不同快照的一個快照中的每個表

0熱度

3回答

Hive或HBase的報告？

我想了解用於報告目的的最佳大數據解決方案是什麼？目前我把它縮小到HBase vs Hive。用例是我們有幾百TB的數據，有數百個不同的文件。數據是實時的，並且一直在更新。我們需要提供最有效的報告方式。我們有幾十個不同的報告頁面，每個報告由不同類型的數字和圖形數據組成。例如：顯示所有在過去一小時內登錄系統的用戶，並且其來源是美國。以最多玩過的遊戲來展示一個圖表，以最少玩過的遊戲。系統中

0熱度

1回答

無法啓動Nutch爬行

我試圖在此之後在Ubuntu 14.04上部署Nutch 2.3 + ElasticSearch 1.4 + HBase 0.94 tutorial。當我嘗試啓動爬行注入的URL做： $NUTCH_ROOT/runtime/local/bin/nutch inject urls 我得到： InjectorJob: starting at 2017-10-12 19:27:48 Injecto

0熱度

1回答

HBase中使用的單元格類型如何？

我在閱讀Cell in HBase，並看到該值在給定行，列族，列限定符，時間戳和類型時是唯一的。我知道前4個，但對type一無所知，因爲我總是知道HBase將所有東西存儲爲字節數組。然後我發現它不是價值的類型，而是The byte representation of the KeyValue.TYPE of this cell: one of Put, Delete, etc。鏈接到代碼here

0熱度

1回答

如何檢索給定部分rowkey的稀疏值集？

鑑於我有一個rowkey由客戶和日期組成，customer_timestamp，我如何執行Get操作，該操作會使用給定的稀疏值生成搜索。例如我認爲有以下幾點： | rowkey | cust/first_name | cust/last_name | cust/address | | ------------ | --------------- | -------------- | ----

1熱度

1回答

使用Spark Streaming將rdd保存到Hbase時的java.io.NotSerializableException

當我使用spark處理數據時，java.io.NotSerializableException會給我帶來很多麻煩。 val hbase_conf = HBaseConfiguration.create() hbase_conf.set("hbase.zookeeper.property.clientPort", "2181") hbase_conf.set("hbase.zookeeper.q

0熱度

1回答

Spark SqlContext和Hbase：java.lang.NoClassDefFoundError：org/apache/hadoop/hbase/util/Bytes

我想訪問在頂部hBase表上創建的Spark中的Hive表。 sqlContext.sql("select * from dev.hive_habse_table") Eventhough我已經包括所有必需的罐，像蜂巢HBase的處理程序在HDP 2.5本 export HADOOP_CLASSPATH=$HADOOP_CLASSPATH:$(hbase classpath) 和引發火花殼（火花1

0熱度

1回答

原始日誌的Hadoop體系結構，但也包含點擊和視圖

不確定用於以下數據的體系結構。我在看下面的數據格式和容量：在查詢字符串持有信息生API Apache日誌（每天約15G） JSON點擊和瀏覽的廣告 - 約每天3m條目。這導致我尋找設置HDFS集羣並使用fluentd或flume加載apache日誌的選項。這一切看起來不錯，但我不明白的是何時或如何解析apache日誌以從查詢字符串和路徑中提取信息。例如：「/ home/category1 /