shark-sql

1熱度

1回答

這最初是開箱即用，然後AWS爲我關閉了這臺服務器。所以我重建了它，並將它作爲新的工作追蹤器（它也是舊的工作追蹤器）。現在我無法弄清楚如何讓Spark/Shark運行。我只需輸入dse shark就可以得到相同的輸出，就像我添加環境變量一樣。我不確定缺少什麼或者在哪裏設置使其工作的變量。 [email protected]:/var/log/cassandra# SPARK_MASTER_IP=10

1熱度

1回答

JDBC連接到服務器鯊魚掛起

我使用下面的配置我的鯊魚羣斯卡拉2.10.3 星火0.9.0 蜂巢0.12.0-chd5.0.2 鯊魚0.9.0 Spark和蜂房經由Cloudera的管理器配置（CDH 5.0.2）我下面這個教程連接到服務器鯊魚： https://cwiki.apache.org/confluence/display/Hive/HiveClient 我開始鯊魚服務器如下：./shark --service

0熱度

2回答

Spark支持插入覆蓋靜態分區嗎？

我在目前的星火SQL手冊發現，插入一個動態分區不支持：主要蜂巢特點星火SQL目前不支持插入到使用動態分區表。但是，插入/覆蓋到靜態分區支持？

7熱度

1回答

Spark Streaming歷史狀態

我正在構建用於檢測欺詐ATM卡交易的實時處理。爲了有效地檢測欺詐，邏輯要求具有卡的最後交易日期，日期（或最後24小時）的交易金額的總和。用例之一是如果在本國以外的卡交易超過30天在該國的最後交易然後發送警報儘可能欺詐因此，試圖看看Spark流作爲解決方案。爲了實現這一點（約函數式編程也許我缺少的想法）以下是我psudo代碼 stream=ssc.receiverStream() //inp

1熱度

1回答

如何從RDD中保存的文本文件創建鯊魚查詢？

我有一個JavaPairRDD<String, String> results，我通過調用保存： results.saveAsTextFile("data") 然後我得到的文件內容，如： (www.abc.com,0.15712321 www.def.com,www.aaa.com,www.ccc.com) 現在，我想創建一個表使用鯊魚像三個領域： url STRING | rank DO

0熱度

1回答

使用鯊魚查詢Cassandra需要太多時間

我建立了一個兩（2）個節點的Cassandra集羣並嘗試使用鯊魚執行查詢。但查詢需要大約10分鐘。但查詢工作正常。（我用Cloudera的安裝軟件對我來說） Time taken: 421.189 seconds shark> 我通過改變某些參數（增加：SPARK_MEM和SHARK_MASTER_MEM）試圖調整鯊魚在的/ opt /鯊魚/鯊魚/ conf目錄/ shark- env.s

0熱度

1回答

Shark中無效的緩存類型異常

我正在嘗試在shark-0.8.0中創建一個緩存表。按照文檔（https://github.com/amplab/shark/wiki/Shark-User-Guide），I創建的表如下： CREATE TABLE mydata_cached ( artist string, title string , track_id string, similars a

1熱度

1回答

有人可以解釋一下：「Spark SQL支持與Hive不同的用例。」

我指的是以下鏈接：Hive Support for Spark 它說：「星火SQL支持不同的使用情況比蜂巢」我不確定爲什麼會這樣。這是否意味着作爲Hive用戶我不能通過Spark SQL使用Spark執行引擎？一些問題：星火SQL使用蜂巢查詢分析器。所以它會理想地支持所有的Hive功能。它會使用Hive Metastore嗎？ Will Hive會使用Spark優化器還是會構建自己的優化器

0熱度

1回答

實時使用cassandra進行大數據處理

我正在爲銷售人員開發應用程序。我無法弄清楚如何在我的應用程序中管理大數據。以下是情景。我根據以下標準劃分位置。 Country => State => City => Territory => Area => Outlet。我的表格結構來管理日常銷售大致如下。插座ID - 1,2,3,4,5,6 ...... 用戶ID - EMP001，EMP002，EMP003，EMP004，EMP005

2熱度

2回答

Datastax DSE Cassandra，Spark，Shark，Standalone Programm

我使用Datastax Enterprise 4.5。我希望我做了正確的配置，我在datastax網站上解釋過。我可以使用Windows服務寫入Cassandra數據庫，這可行，但我無法使用where函數使用Spark進行查詢。我用「./dse cassandra -k -t」（位於/ bin文件夾中）啓動Cassandra節點（只有一個用於測試目的），所以hadoop和spark都同時運行。我