apache-spark-mllib

2熱度

1回答

我在scala Spark中訓練了一個LDA模型。 val lda = new LDA().setK(k).setMaxIter(iter).setFeaturesCol(colnames).fit(data) lda.save(path) 我檢查了我保存的模型，它包含兩個文件夾：元數據和數據。然而，當我嘗試這種模式加載到PySpark，我得到了一個錯誤說： model = LDAMod

1熱度

1回答

爲什麼JavaNGramExample會以「java.lang.ClassNotFoundException：scala.collection.GenTraversableOnce $ class」失敗？

我想出來的火花簡單NGRAM例如 https://github.com/apache/spark/blob/master/examples/src/main/java/org/apache/spark/examples/ml/JavaNGramExample.java 這是我的POM依賴 <dependencies> <dependency> <groupId>org.apa

0熱度

1回答

如何計算PySpark中兩個向量的餘弦相似度？

我將要計算兩個向量的PySpark餘弦相似性，像 1 - spatial.distance.cosine(xvec, yvec) 但SciPy的似乎不支持pyspark.ml.linalg.Vector類型。

2熱度

1回答

如何處理Spark中最新的隨機森林中的分類特徵？

在隨機森林的Mllib版本中，有可能使用參數categoricalFeaturesInfo 指定具有名義特徵（數值但仍爲分類變量）的列什麼是ML隨機森林？在用戶指南there is an example使用VectorIndexer的類別特徵轉換矢量爲好，但它的寫有「自動識別類別特徵，並對其進行索引」 In the other discussion of the same problem我發現數值

0熱度

1回答

使用mllib時的矩陣乘法錯誤

我使用Spark 1.6與YARN，我有一個工作，使用Spark mllib做一些計算，其中之一是矩陣乘法，我使用CoordinateMatrix來做。該代碼是這樣的： def coordinateMatrixMultiply(leftMatrix: CoordinateMatrix, rightMatrix: CoordinateMatrix): CoordinateMatrix = {

1熱度

2回答

mllib矢量的最大值？

我使用mllib創建了一個使用Apache Spark的ML管道。評估結果是一個DataFrame，其中有一列「probability」，它是概率的mllib向量（類似於scikit-learn中的predict_proba）。 val rfPredictions = rfModels.bestModel.transform(testing) val precision = evaluat

0熱度

1回答

變換RDD到有效的輸入，使用包含與下面的代碼CSV文件的目錄的火花mllib算法k均值

我計算TF和IDF： import argparse from os import system ### args parsing parser = argparse.ArgumentParser(description='runs TF/IDF on a directory of text docs') parser.add_argument("-i","--input", help

2熱度

2回答

將任意數量的列轉換爲矢量

如何將一組任意列轉換爲Mllib矢量？基本上，我有我的DataFrame的第一列有一個固定的名稱，然後是一些任意命名的列，每個列中都有Double值。像這樣： name | a | b | c | val1 | 0.0 | 1.0 | 1.0 | val2 | 2.0 | 1.0 | 5.0 | 可以是任何數量的列。我需要獲得以下數據集： final case class Values

1熱度

1回答

sparklyr：spark_apply函數不能在集羣模式下工作

我組合了兩個具有不同行數的數據幀。使用cbind.na功能組合qpcR庫組合兩個數據幀。它顯示了在我的本地機器中正確使用spark_apply功能的結果。但是，在集羣模式下，它顯示如下錯誤。注意：單個數據框顯示集羣和本地的結果。 Error : Error: org.apache.spark.SparkException: Job aborted due to stage failure: Ta

0熱度

1回答

PySpark中的ParamGridBuilder無法與LinearRegressionSGD配合使用

我試圖弄清楚爲什麼LinearRegressionWithSGD不適用於Spark的ParamGridBuilder。從火花文檔： lr = LinearRegression(maxIter=10) paramGrid = ParamGridBuilder()\ .addGrid(lr.regParam, [0.1, 0.01]) \ .addGrid(lr.fitIntercept, [F