shark-sql

    1熱度

    1回答

    這最初是開箱即用,然後AWS爲我關閉了這臺服務器。所以我重建了它,並將它作爲新的工作追蹤器(它也是舊的工作追蹤器)。現在我無法弄清楚如何讓Spark/Shark運行。我只需輸入dse shark就可以得到相同的輸出,就像我添加環境變量一樣。我不確定缺少什麼或者在哪裏設置使其工作的變量。 [email protected]:/var/log/cassandra# SPARK_MASTER_IP=10

    1熱度

    1回答

    我使用下面的配置我的鯊魚羣 斯卡拉2.10.3 星火0.9.0 蜂巢0.12.0-chd5.0.2 鯊魚0.9.0 Spark和蜂房經由Cloudera的管理器配置(CDH 5.0.2) 我下面這個教程連接到服務器鯊魚: https://cwiki.apache.org/confluence/display/Hive/HiveClient 我開始鯊魚服務器如下:./shark --service

    0熱度

    2回答

    我在目前的星火SQL手冊發現,插入一個動態分區不支持: 主要蜂巢特點 星火SQL目前不支持插入到使用動態分區表。 但是,插入/覆蓋到靜態分區支持?

    7熱度

    1回答

    我正在構建用於檢測欺詐ATM卡交易的實時處理。爲了有效地檢測欺詐,邏輯要求具有卡的最後交易日期,日期(或最後24小時)的交易金額的總和。 用例之一是如果在本國以外的卡交易超過30天在該國的最後交易然後發送警報儘可能欺詐 因此,試圖看看Spark流作爲解決方案。 爲了實現這一點(約函數式編程也許我缺少的想法)以下 是我psudo代碼 stream=ssc.receiverStream() //inp

    1熱度

    1回答

    我有一個JavaPairRDD<String, String> results,我通過調用保存: results.saveAsTextFile("data") 然後我得到的文件內容,如: (www.abc.com,0.15712321 www.def.com,www.aaa.com,www.ccc.com) 現在,我想創建一個表使用鯊魚像三個領域: url STRING | rank DO

    0熱度

    1回答

    我建立了一個兩(2)個節點的Cassandra集羣並嘗試使用鯊魚執行查詢。但查詢需要大約10分鐘。但查詢工作正常。 (我用Cloudera的安裝軟件對我來說) Time taken: 421.189 seconds shark> 我通過改變某些參數(增加:SPARK_MEM和SHARK_MASTER_MEM)試圖調整鯊魚在的/ opt /鯊魚/鯊魚/ conf目錄/ shark- env.s

    0熱度

    1回答

    我正在嘗試在shark-0.8.0中創建一個緩存表。按照文檔(https://github.com/amplab/shark/wiki/Shark-User-Guide),I創建的表如下: CREATE TABLE mydata_cached ( artist string, title string , track_id string, similars a

    1熱度

    1回答

    我指的是以下鏈接:Hive Support for Spark 它說:「星火SQL支持不同的使用情況比蜂巢」 我不確定爲什麼會這樣。這是否意味着作爲Hive用戶我不能通過Spark SQL使用Spark執行引擎? 一些問題: 星火SQL使用蜂巢查詢分析器。所以它會理想地支持所有的Hive功能。 它會使用Hive Metastore嗎? Will Hive會使用Spark優化器還是會構建自己的優化器

    0熱度

    1回答

    我正在爲銷售人員開發應用程序。我無法弄清楚如何在我的應用程序中管理大數據。以下是情景。 我根據以下標準劃分位置。 Country => State => City => Territory => Area => Outlet。 我的表格結構來管理日常銷售大致如下。 插座ID - 1,2,3,4,5,6 ...... 用戶ID - EMP001,EMP002,EMP003,EMP004,EMP005

    2熱度

    2回答

    我使用Datastax Enterprise 4.5。我希望我做了正確的配置,我在datastax網站上解釋過。我可以使用Windows服務寫入Cassandra數據庫,這可行,但我無法使用where函數使用Spark進行查詢。 我用「./dse cassandra -k -t」(位於/ bin文件夾中)啓動Cassandra節點(只有一個用於測試目的),所以hadoop和spark都同時運行。我