2014-10-22 75 views
0

我有幾個具有度量信息的大文件。我將這些文件鏈接到名冊數據庫,以便我知道員工在某個日期報告了哪些人員(這使我可以跟蹤每位經理或每個站點的績效等)。Tableau - 混合,加入或修改原始?

我這樣做的方式是創建一個名爲EmployeeID + Date的RosterID字段(例如:x112x20141022)。因此,如果我在儀表板上的一張紙上進行過濾,則會過濾所有紙張。

問題:我是否使用文件之間的混合(現在大約有8個不同的數據源),左連接,還是僅使用python/pandas將信息添加到原始數據源?我希望twbx文件對於最終用戶來說盡可能快。 (我的意思是將信息添加到原始數據中的字面意思是添加像經理,主管,位置,聘用日期,培訓班這樣的列,這會增加文件大小,但會加快Tableau的速度嗎?)

回答

1

數據混合(在Tableau中的不同數據源之間創建關係)是性能最差的解決方案。雖然它很容易使用,但效率非常低,因爲它會在每次計算時虛擬執行加入。

在連接到數據時(我假設您使用的是csv文件)在Tableau上執行左連接是一個非常好的解決方案,就像使用Pandas中的信息製作單個表一樣。對於最終用戶,不應該打賭任何性能差異(特別是如果您將數據提取到Tableau中的tde)。在這裏,您需要測量是否更容易在python/pandas或Tableau提取工具中維護進程。我相信讓Tableau進行連接更簡單。但這是你的電話

+0

因此,也許我會添加一個名爲RosterDatabase的文件,其中包含每日ID +日期數字和相應信息(經理,位置等)。然後,我將與具有ID +日期唯一ID的較大原始文件一起離開。這似乎是一個公平的解決方案嗎? – trench 2014-10-22 13:11:18

+0

是的,任何能夠在Tableau中提供單個表格的內容(提取後)都非常公平。 – Inox 2014-10-22 13:46:31

+1

服務器端連接實際上比客戶端數據混合更高效,但數據混合在使用得當時非常有用且合理高效。混合是少數幾種可用於組合從不同來源動態繪製數據的選項之一,比如將電子表格與數據庫中的相關數據進行比較。混合可能會導致幕後出現一些複雜的行爲,您必須小心注意混合字段(類似於連接鍵)。這是一項高級功能。不適合所有情況,但需要時非常有用。 – 2014-10-28 02:07:50