mapr

    1熱度

    1回答

    我具有與每個40GB存儲器的四個節點Hadoop集羣(MAPR)。我需要在大數據集的一個字段上「應用」一個函數(500萬行)。我的代碼的流程是,我讀了蜂巢表中的數據作爲一個火花數據幀和應用上的一列所需的功能如下: schema = StructType([StructField("field1", IntegerType(), False), StructField("field2", Strin

    0熱度

    1回答

    我正在使用spark「Spark 1.6.1-mapr-1604」版本。 我在本地模式下的作業成功執行,但是當我在紗線簇模式下啓動相同作業時,它會拋出ExceptionInInitializerError。 本地模式命令: spark-submit --class com.ts.clustering.TrainModel \ ts-0.0.1-SNAPSHOT.jar \ -model /us

    1熱度

    2回答

    從編碼的角度來看,kafka和mapr流之間有什麼不同?我需要將來實現mapr流,但目前我只能訪問kafka,因此現在探索kafka是有用的嗎?這樣一旦我獲得訪問權限,我就可以輕鬆地從Mapr流中獲取信息了嗎?

    0熱度

    1回答

    我們有下面的用例,並且想知道表MaprDBDB/HBase設計的一般建議是什麼。 我們的數據由用戶(稱爲唯一的用戶名)和計數(每小時的整數值)組成 我們有10K-100K的請求更新數據庫每10secs。我們必須存儲8000小時的數據以供每個用戶使用。 我試圖創建單行rowkey作爲用戶名和1「計數」列8000版本。但我不能「增加」一個特定的版本,具體取決於進入的數據時間(Hbase「Increme

    -1熱度

    1回答

    我想手動安裝mapr-zookeeper-5.0.0.32987到commandline,但是當我提供版本給yum install mapr-zookeeper-5.0.0.32987時,它給我提供了沒有包可用的錯誤。 如何安裝MAPR-飼養員-5.0.0,因爲我不能用"yum install mapr-zookeeper",因爲它將安裝mapr-zookeeper-5.1.0

    1熱度

    1回答

    我正在使用具有3個節點的MapR(YARN)羣集。我正在嘗試在集羣上部署6個Samza作業,以便對數據流進行一些處理。所有工作都是正確的。我試着平行部署2-3個工作。 但是,當我平行部署所有6個Samza作業時,我會看到以下日誌。任務繼續運行,不產生預期的輸出數據流。 在我的ResourceManager網絡信息中心節點的狀態如下 - 任何人都可以提出如何加以解決。我認爲,應用程序可能沒有足夠的資

    0熱度

    2回答

    我們正在從Hbase 0.94轉移到Hbase 1.1.1版本。我們的應用程序代碼使用HRegionInterface API,現在它在Hbase 1.1.1中不可用。任何人都可以建議我使用HRegionServers的替代API嗎?

    0熱度

    1回答

    我是HBase的新手。我想通過python插入一些數據到HBase中。我搜索了一下,發現Python中有HBase的HappyBase api,但根據我的理解和發現,它不適用於Mapr M7。 請指導哪些包必須在Python中導入。 謝謝。

    3熱度

    2回答

    我有一套50GB的〜1GB tiff圖像,我需要運行相同的算法。目前,我已經用C++編寫了糾正過程,並且效果很好,但是要連續運行所有這些圖像需要花費很長時間。我明白MapReduce/Spark的實現可以工作,但我似乎無法弄清楚如何使用圖像輸入/輸出。 我見過的每個教程/示例都使用純文本。理論上,我也想利用Amazon Web Services。如果有人對我有一些指導,那會很棒。我顯然不是在尋找一

    0熱度

    1回答

    我需要將我的Spark Streaming檢查點文件保存在HDFS目錄中。我可以訪問安裝有MAPR的遠程羣集。 但是,我不知道哪條路徑上MAPR表示到HDFS目錄 是opt/mapr/..?