pyspark

5熱度

1回答

假設我們有以下的文本文件（df.show()命令的輸出）： +----+---------+--------+ |col1| col2| col3| +----+---------+--------+ | 1|pi number|3.141592| | 2| e number| 2.71828| +----+---------+--------+ 現在我想讀/解析它作爲一個數據幀/

0熱度

1回答

AggregateBykey使用python集合

我遇到以下scala示例，它解釋了aggregateByKey。斯卡拉例：以上Scala代碼 val pairs=sc.parallelize(Array(("a",3),("a",1),("b",7),("a",5))) import scala.collection.mutable.HashSet //the initial value is a void Set. Adding an

-2熱度

3回答

什麼是pyspark驅動程序？

我看到一個常見的設置來使用pyspark --master yarn --deploy-mode client --num-executors 4 --executor-memory 2g --driver-memory 4g開始pyspark，但如何駕駛員記憶從執行性記憶有什麼不同？您能否解釋一下驅動程序是什麼以及如何在此設置影響pyspark工作流程/性能？謝謝！

0熱度

1回答

PySpark中的ParamGridBuilder無法與LinearRegressionSGD配合使用

我試圖弄清楚爲什麼LinearRegressionWithSGD不適用於Spark的ParamGridBuilder。從火花文檔： lr = LinearRegression(maxIter=10) paramGrid = ParamGridBuilder()\ .addGrid(lr.regParam, [0.1, 0.01]) \ .addGrid(lr.fitIntercept, [F

-1熱度

1回答

如何使用RDD去除PySpark中的某些正則表達式？

假設我試圖刪除這個正則表達式「RT \ s * @ USER \ w \ w {8}：\ s *」並且我想在我的RDD中刪除這種形式的正則表達式。我現在RDD是： text = sc.textFile(...) delimited = text.map(lambda x: x.split("\t")) 和這裏就是我試圖刪除正則表達式的一部分。我試着做下面的RDD轉換來擺脫每一個匹配這個

0熱度

1回答

如何將數組轉換爲串有效地在python/pyspark

我有以下模式的DF： root |-- col1: string (nullable = true) |-- col2: array (nullable = true) | |-- element: string (containsNull = true) 在其中的一列，COL2是陣列[1個＃B，2·B ，3＃C]。我想將它轉換爲這種字符串格式1＃b，2＃b，3＃c。我目前做這通過下面

0熱度

1回答

不同列上的不同聚合操作pyspark

我想將不同的聚合函數應用於pyspark數據框中的不同列。繼計算器一些建議，我嘗試這樣做： the_columns = ["product1","product2"] the_columns2 = ["customer1","customer2"] exprs = [mean(col(d)) for d in the_columns1, count(col(c)) for c in the_

0熱度

2回答

RDD JSON文件處理

我使用上Pyspark以下代碼導入從BigQuery資料： table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.Js

-1熱度

1回答

創建點播阿帕奇星火網絡服務

我完全新的Web服務的獨立，我想創建它是這樣一個Web服務：用戶輸入一些字到網頁。 Apache Spark作業在後端啓動，它將這些詞作爲輸入參數使用該作業的結果將被處理並顯示回網頁。我想讓它成爲一個獨立的產品，而不使用任何Spark-as-a-service服務，例如Bluemix等現在，我正在考慮採用類似這樣的方式：後端的Python服務器接受請求並輸入新的Spark作業。當spark

0熱度

1回答

使用Spark_sklearn進行嵌套交叉驗證GridSearchCV產生SPARK-5063錯誤

使用Spark_sklearn執行嵌套交叉驗證GridSearchCV作爲內部cv和sklearn cross_validate/cross_val_score作爲外部cv結果「看起來您試圖從廣播變量引用SparkContext ，行動或轉型「的錯誤。 inner_cv = StratifiedKFold(n_splits=2, shuffle=True, random_state=42) ou