databricks

    2熱度

    1回答

    我正在使用由數據磚提供的spark-redshift庫從Spark中的紅移表中讀取數據。鏈接:https://github.com/databricks/spark-redshift。 注意:在我的情況下,Redshift集羣和EMR集羣的AWS賬戶是不同的。 我能夠在Spark LOCAL模式下使用spark-redshift連接到紅移。但是,相同的代碼在EMR上失敗,出現以下異常:java.s

    0熱度

    1回答

    我們有kakfa hdfs連接器以默認avro格式寫入hdfs。樣品O/P: 的OBJ^A^B^Vavro.schema 「[」 空」, 「字符串」]^@ $ͳø{< 9D>¾Ã^ X:< 8D>紫外^ K^H5^F^F^B < 8a>^B {「severity」:「notice」,「message」:「Test message」,「facility」:「kern」,「syslog-tag」:「

    2熱度

    1回答

    我試圖在我的系統中以獨立模式運行spark。目前我的系統規格是8核心和32 Gb內存。立足this article我計算出火花的結構如下所示: spark.driver.memory 2g spark.executor.cores 3 spark.executor.instances 2 spark.executor.memory 20g maximizeResourceAllocatio

    0熱度

    1回答

    我正在使用數據塊進行實木複合地板轉換。該文件是^ A分隔的。我在創建DF時明確提到了這一點,如下所示。但是,當我在數據中得到一個^ M字符時,它在那裏終止並給出格式不正確的行異常。有人可以請建議我如何處理這個? 樣品部分從記錄: 分裝^ Asome文本來這裏;^M^M獎勵:somemore文本;^A0.00 val dataframe = sparkSession.sqlContext.read

    1熱度

    1回答

    有下面的代碼的一部分,我的預測;我想知道如何評估我的預測? 如果,我想知道我的特徵的重要性是有使用featureImportances的RandomForestRegressionModel一招?我應該直接切換到RandomForestRegressionModel而不是使用PipelineModel? ,我讀了使用管道可以提供更好的結果,這就是爲什麼我使用它。 我試過使用RegressionEv

    0熱度

    1回答

    我有一個包含ID的列的文件。通常,ID只出現一次,但偶爾會與多個記錄關聯。我想計算一個給定的ID出現的次數,然後分成兩個單獨的dfs,這樣我就可以在兩者上運行不同的操作。一個df應該是ID只出現一次的地方,一個應該是ID多次出現的地方。 我是能夠成功地算一筆ID出現了通過對ID分組,並加入數返回到原來的DF,像這樣的實例數量: newdf = df.join(df.groupBy('ID').co

    3熱度

    1回答

    我剛開始使用databricks/pyspark。我使用python/spark 2.1。我已將數據上傳至表格。這個表格是一個充滿字符串的單個列。我希望將映射函數應用於列中的每個元素。我的表加載到數據幀: df = spark.table("mynewtable") 我能看到的唯一途徑是別人說的話是將其轉換爲RDD應用映射函數,然後返回到數據框來顯示數據。但是,這牽扯出工作中止階段失敗: df

    1熱度

    1回答

    我試圖從火花階加載CSV文件CSV文件。我看到,我們可以使用下面的兩種不同的語法做: sqlContext.read.format("csv").options(option).load(path) sqlContext.read.options(option).csv(path) 是什麼這兩個並給出了更好的性能區別? 感謝

    1熱度

    1回答

    我想避免將整個流寫入文件,然後將其加載到數據框。什麼是正確的方式?

    0熱度

    2回答

    我有以下情形: 我有僅含有1列2個dataframes比方說 DF1=(1,2,3,4,5) DF2=(3,6,7,8,9,10) 基本上那些值是鍵並且如果我創建DF1的鑲木文件DF1中的鍵不在DF2中(在當前的例子中它應該返回false)。我目前的方式達到我的要求是: val df1count= DF1.count val df2count=DF2.count val diffDF=D