優化星火數字功能（蟒蛇）

新星火併希望看到以優化下面的代碼的最佳方式。我有5GB文件的文件用50列，其餘（下面在可變位置）大約需要30列出來。然後在其上運行各種統計數據。優化星火數字功能（蟒蛇）

def numStats(position): 
    results = [] 
    for lines in position: 
     stats = [0,0,0,0,0,0,0,0] 
     myData = dataSplit.map(lambda arr: (arr[lines])) 
     if myData.take(1) != [u'']: 
      myData3 = myData.map(lambda line: line.split(',')).map(lambda fields: ("Column", float(fields[0]))).map(lambda (column, value) : (value)).persist(StorageLevel.MEMORY_AND_DISK) 
      stats[0] = myData3.sum() 
      results.append(stats[0]) 
      stats[1] = myData3.min() 
      results.append(stats[1]) 
      stats[2] = myData3.max() 
      results.append(stats[2]) 
      stats[3] = myData3.mean() 
      results.append(stats[3]) 
      stats[4] = myData3.stdev() 
      results.append(stats[4]) 
      stats[5] = myData3.variance() 
      results.append(stats[5]) 
      stats[6] = myData3.sampleStdev() 
      results.append(stats[6]) 
      stats[7] = myData3.sampleVariance() 
      results.append(stats[7])

來源

2015-03-02 theMadKing

你的問題是計算單通道內的所有統計數據？ – javadba 2015-03-03 00:19:47

有什麼你可以在我怎麼可能能夠進一步優化代碼看？ – theMadKing 2015-03-03 16:23:22

您可以在一個通過與aggregate功能（http://spark.apache.org/docs/1.2.0/api/python/pyspark.html#pyspark.RDD）數據中計算的許多統計數據。下面是類似的方法與aggregateByKey功能的例子：How to optimize this code on spark?
你堅持下去RDD的一列各一次。爲什麼不緩存myData RDD？每次構建myData3 RDD時都會實現，這意味着30次！

最後，aggregate功能你就可以在你的數據

來源

2015-03-04 10:03:08 0x0FFF

優化星火數字功能（蟒蛇）

回答

相關問題