databricks

0熱度

2回答

我想建立一個從Databricks連接到couchbase服務器4.5，然後運行N1QL查詢。下面的scala代碼會返回1條記錄，但在引入N1QL時會失敗。任何幫助表示讚賞。 import com.couchbase.client.java.CouchbaseCluster; import scala.collection.JavaConversions._; import

0熱度

2回答

如何將數據從數據框導出到文件數據塊

我現在正在做EdX的Spark課程簡介。是否有可能在我的電腦上保存來自Databricks的數據框。我問這個問題，因爲這個課程提供Databricks筆記本這可能不會在課程結束後的工作。在筆記本數據導入使用命令： log_file_path = 'DBFS：/' + os.path.join（ 'databricks-數據集'， 'CS100'， '實驗2'，「數據-001' ， 'apac

1熱度

2回答

spark：dataframe.count產生的方式多於逐行打印或show（）

Spark to new;使用Databricks。真的很迷惑。我有這個dataFrame：df。 df.count()得到龍= 5460 但是，如果我打印一行一行： df.collect.foreach(println)我只得到541行打印出來。同樣，df.show(5460)只顯示1017行。可能是什麼原因？一個相關的問題：我如何使用Databricks保存「df」？它保存在哪裏？ - 我

0熱度

1回答

在火花集羣上安裝python CV2

我想在使用databricks社區版的火花集羣上安裝pythons庫CV2，並且我要： workspace-> create - > library，作爲正常的過程，然後在語言組合框中選擇python，但在「PyPi Package」文本框中，我嘗試了「cv2」和「opencv」，但沒有運氣。有人試過這個嗎？你知道cv2是否可以通過這種方法安裝在羣集上？如果是的話，應該在texbox中使用哪個名稱

1熱度

1回答

錯誤：導入JAR文件時無法反序列化

我正在使用Databricks，並嘗試導入我的Java/Scala項目的JAR文件。但是，導入失敗此消息： Import failed with error: Could not deserialize: Unrecognized token 'Manifest': was expecting ('true', 'false' or 'null')? at [Source: [email p

1熱度

1回答

Apache Spark通過跨羣集訪問hdfs中的數據

我在Amazon EMR上運行其公有DNS的Spark，例如23.21.40.15。現在我在這個羣集上執行我的Spark Jar &我想將我的Spark Job的輸出寫入其公有DNS爲29.45.56.72的其他Amazon EMR HDFS。我能夠訪問我自己的羣集HDFS，即23.21.40.15，但我無法寫入羣集29.45.56.72。我需要做什麼才能讓我的火花作業可以訪問跨羣集 HDF

1熱度

5回答

星火紅移與Python

我想星火與亞馬遜紅移連接，但我得到這個錯誤：我的代碼如下： from pyspark.sql import SQLContext from pyspark import SparkContext sc = SparkContext(appName="Connect Spark with Redshift") sql_context = SQLContext(sc) sc._jsc.ha

-2熱度

1回答

Databricks是否爲給定的集羣和數據集提供了推薦的火花參數？

我剛剛創建了一個7節點Spark集羣，每個工作人員擁有8GB內存和4個內核。它不是一個巨大的集羣，但是對於一個簡單的terasort只有10GB的數據，「超出GC開銷限制」失敗。我想知道如何決定Spark集羣的這些基本參數，以便隨着數據大小的增長作業不會失敗。遺囑執行人的 NUM NUM分區並行執行內核執行內存如果配置不正確，而是處理死去，我不介意工作運行速度慢因爲缺乏記憶是一個大紅旗