我有一個Spark Thrift服務器。我連接到Thrift Server並獲取Hive表的數據。如果我再次查詢同一個表,它將再次將文件加載到內存中並執行查詢。在Spark Thrift服務器中緩存數據幀
有什麼辦法可以使用Spark Thrift Server緩存表數據?如果是的話,請讓我知道如何做到這一點
我有一個Spark Thrift服務器。我連接到Thrift Server並獲取Hive表的數據。如果我再次查詢同一個表,它將再次將文件加載到內存中並執行查詢。在Spark Thrift服務器中緩存數據幀
有什麼辦法可以使用Spark Thrift Server緩存表數據?如果是的話,請讓我知道如何做到這一點
兩件事情:
CACHE LAZY TABLE
作爲這樣的回答:Spark SQL: how to cache sql query result without using rdd.cache()和cache tables in apache spark sqlspark.sql.hive.thriftServer.singleSession=true
讓其他客戶端可以使用這個緩存的表。記住,緩存是懶惰的,所以它會先計算期間被緩存
是否有任何UI或東西可以看到緩存表? –
@AdityaCalangutkar它將在Spark UI的存儲選項卡上顯示,但是作爲RDD而非DataFrame或數據集 –
您可以通過SQL控制緩存嗎(如持久方法)? (內存/磁盤) –