pyspark

    5熱度

    1回答

    假設我們有以下的文本文件(df.show()命令的輸出): +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 現在我想讀/解析它作爲一個數據幀/

    0熱度

    1回答

    我遇到以下scala示例,它解釋了aggregateByKey。 斯卡拉例:以上Scala代碼 val pairs=sc.parallelize(Array(("a",3),("a",1),("b",7),("a",5))) import scala.collection.mutable.HashSet //the initial value is a void Set. Adding an

    -2熱度

    3回答

    我看到一個常見的設置來使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g開始pyspark,但如何駕駛員記憶從執行性記憶有什麼不同?您能否解釋一下驅動程序是什麼以及如何在此設置影響pyspark工作流程/性能? 謝謝!

    0熱度

    1回答

    我試圖弄清楚爲什麼LinearRegressionWithSGD不適用於Spark的ParamGridBuilder。從火花文檔: lr = LinearRegression(maxIter=10) paramGrid = ParamGridBuilder()\ .addGrid(lr.regParam, [0.1, 0.01]) \ .addGrid(lr.fitIntercept, [F

    -1熱度

    1回答

    假設我試圖刪除這個正則表達式「RT \ s * @ USER \ w \ w {8}:\ s *」 並且我想在我的RDD中刪除這種形式的正則表達式。 我現在RDD是: text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和這裏就是我試圖刪除正則表達式的一部分。 我試着做下面的RDD轉換來擺脫每一個匹配這個

    0熱度

    1回答

    我有以下模式的DF: root |-- col1: string (nullable = true) |-- col2: array (nullable = true) | |-- element: string (containsNull = true) 在其中的一列,COL2是陣列[1個#B,2·B ,3#C]。我想將它轉換爲這種字符串格式1#b,2#b,3#c。 我目前做這通過下面

    0熱度

    1回答

    我想將不同的聚合函數應用於pyspark數據框中的不同列。繼計算器一些建議,我嘗試這樣做: the_columns = ["product1","product2"] the_columns2 = ["customer1","customer2"] exprs = [mean(col(d)) for d in the_columns1, count(col(c)) for c in the_

    0熱度

    2回答

    我使用上Pyspark以下代碼導入從BigQuery資料: table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.Js

    -1熱度

    1回答

    我完全新的Web服務的獨立,我想創建它是這樣一個Web服務: 用戶輸入一些字到網頁。 Apache Spark作業在後端啓動,它將這些詞作爲輸入參數使用 該作業的結果將被處理並顯示回網頁。 我想讓它成爲一個獨立的產品,而不使用任何Spark-as-a-service服務,例如Bluemix等 現在,我正在考慮採用類似這樣的方式:後端的Python服務器接受請求並輸入新的Spark作業。當spark

    0熱度

    1回答

    使用Spark_sklearn執行嵌套交叉驗證GridSearchCV作爲內部cv和sklearn cross_validate/cross_val_score作爲外部cv結果「看起來您試圖從廣播變量引用SparkContext ,行動或轉型「的錯誤。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou