apache-spark-mllib

    -1熱度

    1回答

    我將在Spark上實現k-means。但是我需要以JSON格式存儲集羣信息。如何做呢? 注意:Python或Scala也可以。 提前致謝!

    3熱度

    1回答

    我有一個需求,我需要找到在ANN實現中使用的屬性的相對重要性。我使用Spark MLib庫MultiLayerPerceptron來實現。該模型給我一個向量,這是一個權重數組。我知道有算法可以從權重中推導出相對的重要性,但是MLib實現給出了一個大的單維數組,並且沒有說明與每個輸入對應的權重。任何人都知道如何獲得與每個輸入節點相對應的權重?

    -1熱度

    1回答

    我理想喜歡做以下事情: 實際上,我想要做的是我的數據集是RDD [LabeledPoint],我想控制比率正面和負面標籤。 val training_data: RDD[LabeledPoint] = MLUtils.loadLibSVMFile(spark, "training_data.tsv") 此數據集包含了它的兩個案例和控件。我想控制病例與控件的比例(我的數據集是傾斜的)。所以我想做

    0熱度

    1回答

    我正在嘗試使用樸素貝葉斯算法來構建文本分類模型。 這裏是我的樣本數據(標籤和功能): 1|combusting [chemical] 1|industrial purposes 1| 2|salt for preserving, 2|other for foodstuffs 2|auxiliary 2|fluids for use with abrasives 3|vulcanisa

    7熱度

    1回答

    我試圖在spark和scala中實現神經網絡,但無法執行任何向量或矩陣乘法。火花提供了兩個向量。 Spark.util矢量支持點操作,但不推薦使用。 mllib.linalg向量不支持scala中的操作。 哪一個用來存儲權重和訓練數據? 如何使用像w * x這樣的mllib在spark spark中執行向量乘法,其中w是向量或權重矩陣,x是輸入。 pyspark矢量支持點產品,但在斯卡拉我無法在向

    0熱度

    1回答

    我正在Linear Regression建模PySpark,並有疑問regrading。我有的數據有categorical features。我通過文件繼續PySpark和Linear Regression的例子顯示了這一點: model = LinearRegressionWithSGD.train(parsedData) 它不顯示如何通過categorical features到Linea

    0熱度

    1回答

    是否存在推薦/被證明是有效的格式或機制來在Apache Spark中保留DenseMatrix?或者我應該把它寫入一個文件? 我正在生成一個DenseMatrix發佈SVD操作,並且需要在用戶查詢進來時引用它,因此經常會查找它。 任何幫助將不勝感激。

    4熱度

    1回答

    嗨,我是新的火花和斯卡拉。我在火花scala提示符下運行scala代碼。該程序很好,它顯示「定義模塊MLlib」,但它不在屏幕上打印任何東西。我做錯了什麼?有沒有其他的方式來運行這個程序spark在scala shell中並獲得輸出? import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.mll

    2熱度

    1回答

    Spark mllib數據包洗牌數據嗎?我一直在使用randomSplit處理數據,但是,看起來它看起來有相同的順序。 有沒有辦法在拆分數據之前對數據進行洗牌?

    2熱度

    1回答

    我正在使用LDA和Spark MLlib框架。 要確定主題數量,我嘗試:運行LDA模型,增加主題數量,然後找到最佳主題數量具有最大值對數似然。 但是,如果我以相同的方式和相同的輸入數據再次運行。我有不同的話題數量。所以,你能幫我具有小於兩個問題: 我應該珍惜,我必須用它來確定主題數:數似然或logPrior 爲什麼同樣的LDA的參數和輸入數據,每次產生不同的主題? 而我該如何穩定話題代? 非常感謝