apache-spark-mllib

    2熱度

    1回答

    我試圖在PySpark MLlib(1.3.1)中的ALS模型中使用長用戶/產品ID,並且遇到問題。代碼的簡化版本,在這裏給出: from pyspark import SparkContext from pyspark.mllib.recommendation import ALS, Rating sc = SparkContext("","test") # Load and pars

    1熱度

    2回答

    我有一個包含90列和大約28000行的CSV文件。我想加載它並將其分爲火車(75%)和測試(25%)。我用下面的代碼: 代碼: val data = sc.textFile(datadir + "/dados_frontwave_corte_pedra_ferramenta.csv") .map(line => line.split(",")) .filter(line

    3熱度

    1回答

    我試圖在pyspark上運行Spark MLlib軟件包,並附帶一個測試機器學習數據集。我將數據集分成半訓練數據集和半測試數據集。以下是我建立模型的代碼。但是,它顯示了所有因變量中NaN,NaN的重量。無法弄清楚爲什麼。但是,當我嘗試使用StandardScaler函數來標準化數據時,它很有用。 model = LinearRegressionWithSGD.train(train_data, s

    1熱度

    1回答

    我試圖在Spark上使用一些自定義數據構建迴歸模型,截距和權重始終爲nan。 這是我的數據: data = [LabeledPoint(0.0, [27022.0]), LabeledPoint(1.0, [27077.0]), LabeledPoint(2.0, [27327.0]), LabeledPoint(3.0, [27127.0])] 輸出: (weights=[nan], int

    11熱度

    1回答

    我想嘗試一個ALS機器學習算法的例子。而我的代碼工作正常,但我不明白算法中使用的參數rank。 我有以下在Java // Build the recommendation model using ALS int rank = 10; int numIterations = 10; MatrixFactorizationModel model = ALS.train(J

    3熱度

    1回答

    我想僅使用每個LabeledPoint中的一部分特徵在RDD [LabeledPoint]上訓練分類器(既快速調整模型,又包含每個LabeledPoint,例如不是特徵的ID或評估指標)。我搜索了文檔,並找不到指定應包含或忽略哪些列的方法。代碼如下,我正在使用Spark和MLLib 1.3.1,Scala 2.10.4。 如果無法排除特定功能,那麼在訓練期間將忽略每個數據點的ID都會有所幫助。任何

    1熱度

    1回答

    我有一個非常大的數據集存儲在Hadoop(YARN集羣)上,我想在其上訓練支持向量機分類器。 從數據集的每個數據點中提取特徵,並以LibSVM格式保存。 Spark MLLib可以使用MLUtils.LoadLibSVMFile(JavaSparkContext上下文,字符串目錄)讀取這些文件。 每個文件都有一行,雙行以換行符結尾。該行代表特徵的值。 我想將所有這些文件連成一個JavaRDD。 我

    2熱度

    1回答

    我有兩個分別具有浮點值的大小爲a x m和b x m的火花數據幀(A和B)。 此外,每個數據幀都有一個'ID'列,這是一個字符串標識符。 A和B具有完全相同的一組「ID」(即包含關於同一組顧客的信息)。 我想通過某種功能將A列與B列相結合。 更具體地說,我想構建一個標量產品,列A的列和B的列,根據ID對列進行排序。 更具體地說,我想計算A和B列之間的相關性。 在所有列對上執行此操作將與矩陣乘法相同

    0熱度

    1回答

    我正在使用ALS(Spark版本:1.3.1)來培訓推薦系統。現在我想通過交叉驗證使用Pipeline進行模型選擇。作爲第一步,我試着去適應the example code以及與此想出了: val conf = new SparkConf().setAppName("ALS").setMaster("local") val sc = new SparkContext(conf) val sql

    3熱度

    1回答

    我在Spark 1.3.0中,我的數據在DataFrame中。 我需要像sampleByKey(),sampleByKeyExact()這樣的操作。 我看到JIRA「爲DataFrame添加近似分層採樣」(https://issues.apache.org/jira/browse/SPARK-7157)。 這是Spark 1.5的目標,直到完成,最簡單的方法是完成DataFrame上的sample