我試圖使用Spark中的takeSample()
函數,參數是 - 數據,要採樣的數量和種子。但我不想使用種子。我想每次都有不同的答案。我無法弄清楚我該怎麼做。我嘗試使用System.nanoTime
作爲種子值,但它給出了一個錯誤,因爲我認爲數據類型不匹配。是否還有其他與takeSample()
類似的功能可以在沒有種子的情況下使用?或者是否有其他的實現可以與takeSample()
一起使用,以便每次都得到不同的輸出。Spark中的takeSample()函數
6
A
回答
7
System.nanoTime
類型爲long
,takeSample
預期的種子爲Int
類型。因此,takeSample(..., System.nanoTime.toInt)
應該工作。
1
System.nanoTime
返回Long,而takeSample需要一個Int。
您可以將scala.util.Random.nextInt
作爲種子值提供給takeSample函數。
1
從Spark版本1.0.0開始,seed
參數是可選的。見https://issues.apache.org/jira/browse/SPARK-1438。
相關問題
- 1. Spark :: KMeans調用兩次takeSample()?
- 2. Spark作業無限期掛在rdd上takeSample
- 3. toBreeze Spark函數scala
- 4. Spark 1.4:Spark SQL ANY和所有函數
- 5. SPARK 2014中幻影函數的編譯
- 6. Spark 1.3中的Strip或Regex函數Dataframe
- 7. Spark集羣中的RDD映射函數內調用函數
- 8. Spark重複函數CUSUM
- 9. Spark GroupBy聚合函數
- 10. 在spark中使用OrderedRDD函數
- 11. Distinct()函數在Spark中如何工作?
- 12. 如何在Spark中正確求和.map函數中的整數?
- 13. renderer添加Spark DataGrid的函數?
- 14. Spark Hive - 帶窗口函數的UDFArgumentTypeException?
- 15. Spark數據集解壓縮函數
- 16. 從Java中的spark轉換函數寫入HDFS中的文件
- 17. 爲什麼計數函數不適用於Spark中的mapvalues?
- 18. 除了dataframe spark scala參數和實現中的函數。
- 19. Spark Spark函數可以指定動態變量嗎?
- 20. Spark UDF作爲函數參數,UDF不在函數範圍內
- 21. 在scala中瞭解Spark中的函數文檔
- 22. 如何獲取Spark的地圖函數中的列名?
- 23. 爲Spark中的匹配暱稱編寫高效的scala函數
- 24. Spark DStream的foreachDD函數中RDD的並行轉換
- 25. Spark中的reduceByKeyAndWindow函數的奇怪行爲
- 26. 將函數應用於Spark中的csv的單個列
- 27. Spark java地圖函數執行兩次
- 28. AWS lambda函數提交spark工作
- 29. 在Spark Dataframe上運行Python函數
- 30. spark SQL窗口函數滯後
在scala中'.toInt'應該優先於'.intValue' –
@RégisJean-Gilles謝謝,更正。 –