databricks

    0熱度

    2回答

    我想建立一個從Databricks連接到couchbase服務器4.5,然後運行N1QL查詢。 下面的scala代碼會返回1條記錄,但在引入N1QL時會失敗。任何幫助表示讚賞。 import com.couchbase.client.java.CouchbaseCluster; import scala.collection.JavaConversions._; import

    0熱度

    2回答

    我現在正在做EdX的Spark課程簡介。 是否有可能在我的電腦上保存來自Databricks的數據框。 我問這個問題,因爲這個課程提供Databricks筆記本這可能不會在課程結束後的工作。 在筆記本數據導入使用命令: log_file_path = 'DBFS:/' + os.path.join( 'databricks-數據集', 'CS100', '實驗2',「數據-001' , 'apac

    1熱度

    2回答

    Spark to new;使用Databricks。真的很迷惑。 我有這個dataFrame:df。 df.count()得到龍= 5460 但是,如果我打印一行一行: df.collect.foreach(println)我只得到541行打印出來。同樣,df.show(5460)只顯示1017行。可能是什麼原因? 一個相關的問題:我如何使用Databricks保存「df」?它保存在哪裏? - 我

    0熱度

    1回答

    我想在使用databricks社區版的火花集羣上安裝pythons庫CV2,並且我要: workspace-> create - > library,作爲正常的過程,然後在語言組合框中選擇python,但在「PyPi Package」文本框中,我嘗試了「cv2」和「opencv」,但沒有運氣。有人試過這個嗎?你知道cv2是否可以通過這種方法安裝在羣集上?如果是的話,應該在texbox中使用哪個名稱

    1熱度

    1回答

    我正在使用Databricks,並嘗試導入我的Java/Scala項目的JAR文件。 但是,導入失敗此消息: Import failed with error: Could not deserialize: Unrecognized token 'Manifest': was expecting ('true', 'false' or 'null')? at [Source: [email p

    1熱度

    1回答

    我在Amazon EMR上運行其公有DNS的Spark,例如23.21.40.15。 現在我在這個羣集上執行我的Spark Jar &我想將我的Spark Job的輸出寫入其公有DNS爲29.45.56.72的其他Amazon EMR HDFS。 我能夠訪問我自己的羣集HDFS,即23.21.40.15,但我無法寫入羣集29.45.56.72。 我需要做什麼才能讓我的火花作業可以訪問跨羣集 HDF

    1熱度

    5回答

    我想星火與亞馬遜紅移連接,但我得到這個錯誤: 我的代碼如下: from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="Connect Spark with Redshift") sql_context = SQLContext(sc) sc._jsc.ha

    -2熱度

    1回答

    我剛剛創建了一個7節點Spark集羣,每個工作人員擁有8GB內存和4個內核。它不是一個巨大的集羣,但是對於一個簡單的terasort只有10GB的數據,「超出GC開銷限制」 失敗。 我想知道如何決定Spark集羣的這些基本參數,以便隨着數據大小的增長作業不會失敗。遺囑執行人的 NUM NUM分區 並行 執行內核 執行內存 如果配置不正確,而是處理死去,我不介意工作運行速度慢因爲缺乏記憶是一個大紅旗