0

我有興趣安裝Platfora和Datameer分析工具。我懷疑這兩個工具的文檔,我們看到現有的Hadoop發行版,他們給出了兼容性列表,包括CDH,HDP和MapR。 但我想在現有的普通Hadoop中安裝這些。即我已經通過逐個下載Apache Hadoop組件並準備好羣集來安裝Hadoop。Platfora和Datameer的分佈

這些工具在這種情況下會起作用嗎?

回答

0

是的,它的工作原理。只要您使用「最新的穩定」紗線,HDFS和Map Reduce版本 - Datameer將毫無問題地工作。除此之外的任何事情都沒有關係,因爲Datameer沒有使用Hive,Oozie或其他任何組件,而是在應用程序中預先打包了諸如tez,spark等內容,並且在紗線上運行它是透明的。截至今天,我們支持50個不同版本的Hadoop。

我顯然不能代表Platflora,但他們並不真正在Hadoop上運行本地好歹只是拉出來的數據的Hadoop到他們在額外的集羣上運行內存柱狀數據庫: +額外的膨脹的硬件(內存激烈) +結構化的數據僅因爲SQL(記得Hadoop的是建設成爲NO-SQL)只( +小的數據,因爲在內存中) +沒有先進的分析技術如基於

HTH 斯特凡因爲SQL圖形分析(我的工作在Datameer)

+0

嗨,謝謝你的回覆。我將嘗試在本機hadoop上安裝Datameer。只是一個簡短的問題,我想運行評估目的,我可以在沒有許可的情況下安裝嗎? – user234202

+0

無論如何,我有鏈接來安裝Datameer的trail版本的rpm包。 – user234202

5

您可以使用普通Apac安裝Platfora他通過選擇Hortonworks的HDP分發Hadoop - HDP分發的核心是純粹的Apache Hadoop。 (我在Platfora工作,我們支持許多不同的Hadoop發行版,但我們的許多開發實際上是使用普通的Apache Hadoop完成的)。

Platfora不僅將Hadoop集羣用於輸入數據,還通過生成本地MapReduce和Apache Spark作業來處理原始的大量結構化或半結構化輸入數據(JSON,XML,日誌文件,CSV,Avro,來自Hive的數據,其他處理管道和庫的輸出,您可以將其命名)。這可以很好地擴展,但對於分析問題的每一個變化,在您的工作流程中擁有更高的延遲框架(如MapReduce或Spark)會給您帶來很長的週轉時間 - 這對生產力不利。這就是爲什麼Platfora使用支持低延遲視覺發現前端的分佈式,擴展內存查詢引擎訪問這些中間結果的原因。這種端到端的方法使得通過交互式(次秒)視覺體驗可以很容易地在跨數據的PB中可視化和理解模式 - 類似於Tableau,但是原生Hadoop以及現代多線程的規模和複雜性,結構化數據。