我已經創建了一個數據幀說df1。我通過使用df1.cache()來緩存這個。我怎樣才能檢查這是否被緩存? 也有一種方法,以便我能夠看到我所有的緩存RDD或數據框。如何檢查我的RDD或數據幀是否被緩存?
回答
您可以在RDD上調用getStorageLevel.useMemory
來確定數據集是否在內存中。例如:
scala> val rdd = sc.parallelize(Seq(1,2))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[1] at parallelize at <console>:21
scala> rdd.getStorageLevel.useMemory
res9: Boolean = false
scala> rdd.cache()
res10: rdd.type = ParallelCollectionRDD[1] at parallelize at <console>:21
scala> rdd.getStorageLevel.useMemory
res11: Boolean = true
@Arnab,
你有沒有發現在Python的功能?
下面是數據幀DF的例子:
DF.cache() print DF.is_cached
希望這有助於。
拉姆
一個什麼樣的例子? DataFrame類中沒有這種方法。 –
is_cached不是一種方法,它是DataFrame類的一個屬性。 – cftarnas
在Java和Scala,下面的方法可以用來找到所有的持久RDDS: sparkContext.getPersistentRDDs()
這裏是鏈接到文件: https://spark.apache.org/docs/2.0.2/api/java/org/apache/spark/SparkContext.html#getPersistentRDDs()
貌似這個方法不可用在蟒蛇尚未:
https://issues.apache.org/jira/browse/SPARK-2141
但人們可以利用這種短期的黑客:sparkContext._jsc.getPersistentRDDs()項目()
謝謝。
開始,因爲火花(斯卡拉)2.1.0,這可以檢查一個數據幀如下:
dataframe.storageLevel.useMemory
- 1. 檢查數據幀是否存在
- 2. Swift - Parse檢查PFFile是否被緩存
- 3. 我的查詢是否被緩存?
- 4. 我們如何檢查數據幀列的值是否爲空?
- 5. 如何檢查Spark中緩存數據幀/ rdds /表的列表?
- 6. 檢查RDD中是否存在值
- 7. 檢查類型:如何檢查是RDD還是數據框?
- 8. 如何檢查RDD是否有效?
- 9. 檢查我的頁面是否被緩存
- 10. 如何檢查數據庫表是否存在或不存在?
- 11. JavaScript:如何檢查文件是否被緩存?
- 12. 如何檢查瀏覽器緩存是否被禁用
- 13. Javascript:如何檢查圖像是否已被緩存
- 14. 保存Neo4j的數據以星火RDD(或)數據幀
- 15. 數據幀,檢查列是否爲空
- 16. 檢查數據幀本身是否NA
- 17. 檢查值是否在數據幀中
- 18. 我如何檢查數據是否爲「」
- 19. 如何檢查數據是否被插入或不在存儲過程中
- 20. 如何檢查我是否成功清除IE的緩存?
- 21. 如何檢查查詢緩存中是否存在查詢?
- 22. 如何檢查url是否存在或取消json數據
- 23. 如何檢查數據庫中是否存在表或列?
- 24. 在RDD /數據幀
- 25. Codeigniter:數據庫緩存檢查是否從數據庫或從緩存加載的記錄
- 26. Pyspark轉換RowMatrix到數據幀或RDD
- 27. 使用另一個數據幀或RDD搜索數據幀
- 28. 如何我可以檢查DatagridView的行是否被檢查
- 29. 檢查一個數據幀中是否存在值
- 30. 檢查數據幀中是否存在字符
謝謝你的答案。 python中是否有類似的函數? – StarLord
我這麼認爲,請確認Python API。 –
我似乎無法找到它,如果您對我的位置有任何想法,請幫助我 – StarLord