pyspark

    0熱度

    1回答

    我想建立使用dataframes pyspark.ml庫(不mllib爲RDD)隨機森林分類。 我是否必須使用文檔中給出的管道? 我只是想建立一個簡單的模型, rf = RandomForestClassifier(labelCol = labs, featuresCol = rawdata) 我碰到下面的錯誤 Traceback (most recent call last): F

    4熱度

    2回答

    我有Apache Cassandra在Google Cloud中的4個虛擬機上工作。我認爲它太昂貴了,並且想要將所有數據導出到BigQuery。卡桑德拉大約有2TB(60毫米排)。任何建議我怎麼能做到這一點? 在此先感謝。

    0熱度

    1回答

    from pyspark.sql import Row, functions as F row = Row("UK_1","UK_2","Date","Cat") agg = '' agg = 'Cat' tdf = (sc.parallelize ([ row(1,1,'12/10/2016',"A"), row(1,2,None,'A'),

    1熱度

    1回答

    我在Spark中實現了k-means算法。當我運行下面的代碼時,出現酸洗錯誤(如下所示)。如果我修改它並將所有內容放在循環之外,它將正確計算質心。 sc = SparkContext(appName="Document Similarity") lines = sc.wholeTextFiles(sys.argv[1]) articles = lines.flatMap(lambda x:

    1熱度

    1回答

    我們如何獲得列pyspark數據框的名稱? Alice Eleonora Mike Helen MAX 0 2 7 8 6 Mike 1 11 5 9 4 Alice 2 6 15 12 3 Eleonora 3 5 3 7 8 Helen 我需要這樣的東西。沒有的最高值,我能夠得到的最高值列的名字,我需要的名字

    0熱度

    1回答

    我正在使用Pyspark並試圖弄清楚如何使用以前的列進行復雜計算。我認爲通常有兩種方法可以使用以前的列進行計算:Windows和mapwithPartition。我認爲我的問題太複雜,無法通過windows解決,我想將結果視爲一個判斷行,而不是列。所以我試圖使用mapwithpartition。我在這種語法方面遇到了麻煩。例如,這是一個粗略的代碼草稿。 def change_dd(rows):

    2熱度

    1回答

    情況如何? 我有一萬個CSV文件(每個250kb - 270kb),我想用Spark(Pyspark精確地)處理。每個CSV文件都代表一個特定事件的過程數據。你可以說一個CSV文件代表一個對象。由於我想將數據存儲在HDFS上,所以我必須找到連接數據的方式(因爲在HDFS上存儲大量微小數據效率不高)。 一個CSV文件的片段(簡化)。 Time Module v1 v2 v3 v4 v5 v6

    -1熱度

    1回答

    這似乎特別發生在我將數字列乘以標量時,將DataFrame寫回HDFS,然後嘗試查看當我再次將它加載到DataFrame中時的值。例如,在pyspark shell中不會發生。 df = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>不翻轉列 df_new = df.withColumn('AMOUNT', df.AMOUNT*lit(-1)) =>作品

    1熱度

    1回答

    我想知道我們是否可以在運行時將Scala中定義的方法轉換爲Python中的方法。我正在學習Apache Spark Scala API作爲我的項目的一部分,並尋找將Scala方法轉換爲Python語言可識別格式的方法。 我的目標是將方法從Scala程序發送到外部Python程序,Python程序應該能夠使用或執行它。 Scala代碼=> LAMBDA line => line.split(" ")

    0熱度

    1回答

    我想用我們的Spark集羣並行運行程序。我的想法是做某事如下所示: def simulate(): #some magic happening in here return 0 spark = ( SparkSession.builder .appName('my_simulation') .enableHiveSupport() .getOrCrea