我正在教授關於數據科學的課程,並且我不熟悉像tableau這樣的工具。一位學生說,Tableau有一個非常有效的壓縮算法,這對我來說有點令人震驚。我將tableau想象成類似元數據庫的元素,用於可視化和探索數據。Tableau是否有內部數據庫或需要外部數據庫
所以主要問題是:
1)畫面是否存儲數據,或如何它存儲數據?
2)這個數量是否有限制?
3)有沒有關於壓縮算法或查詢速度的知識/基準?
我正在教授關於數據科學的課程,並且我不熟悉像tableau這樣的工具。一位學生說,Tableau有一個非常有效的壓縮算法,這對我來說有點令人震驚。我將tableau想象成類似元數據庫的元素,用於可視化和探索數據。Tableau是否有內部數據庫或需要外部數據庫
所以主要問題是:
1)畫面是否存儲數據,或如何它存儲數據?
2)這個數量是否有限制?
3)有沒有關於壓縮算法或查詢速度的知識/基準?
他們最可能指的是Tableau Data Extract。
Tableau Desktop沒有內置數據庫,而是連接到不同的數據源(文件,數據庫等)。連接到數據源後,Tableau可以將該數據「提取」到Tableau Data Extract文件中,該文件既可以壓縮又可以以列存儲格式表示。
我不確定你的意思是「這個數量是否有限制?」。請記住,Tableau數據提取保存爲實際文件(.tde)。
我想象的算法/代碼是Tableau專有的,而不是您可以查看自己的東西。
這裏是一個很好的參考,爲您瞭解TDES:
https://www.tableau.com/about/blog/2014/7/understanding-tableau-data-extracts-part1
一般來說,畫面不存儲數據,而是指向參照一個或多個數據源僅--read - - 保留數據,發出查詢,然後以可視方式呈現查詢結果。它可以與幾十個典型的數據源一起工作。
該架構具有優勢。數據更改時,圖表可以刷新以查看結果。您可以在不使用ETL的情況下合併來自多個源的數據
一個幾乎例外的情況是,您按照Nicarus的解釋創建了一個tableau數據提取。將提取視爲原始數據源子集的永久性緩存副本。真正的數據仍然是外部的,只有一個本地速度的副本
當然,提取**是一個高效的壓縮數據庫,針對快速查詢進行了優化(並且可能在RAM中表現最好)。因此實際限制將是基於磁盤或RAM的。 –
這並不完全如此。 Tableau仍會查詢提取內容,並在使用時將該查詢的結果存儲在RAM中 - 而不是整個提取。 – Nicarus