使用Pytables優化HDF5中的寫入速度

問題在於計算機的寫入速度（10 * 32位機器）和postgresql查詢性能。我將詳細解釋場景。使用Pytables優化HDF5中的寫入速度

我有大約80 GB的數據（以及approprite數據庫索引）。我試圖從Postgresql數據庫中讀取它，並使用Pytables將其寫入HDF5中。我在一個hdf5文件中有1個表和5個變量數組。Hdf5的實現不是多線程的或未啓用對稱多處理。我租用了大約10臺計算機爲了加快我的數據處理速度，我試圖編寫它們。

至於爲PostgreSQL表而言整體記錄的大小爲140萬，我有5個主體 - 外鍵指tables.I我不使用加入，因爲它是不可擴展

所以對於單個查找我做6個沒有連接的查找並將它們寫入hdf5格式。對於每個查找，我都將6個插入到每個表及其相應的數組中。

的查詢是非常簡單的

select * from x.train where tr_id=1 (primary key & indexed) 
select q_t from x.qt where q_id=2 (non-primary key but indexed)

（同樣五個查詢）

每臺計算機輸出兩種HDF5文件，進而總數惡有惡報20個文件。

一些計算和統計：

Total number of records : 14,37,00,000 
Total number of records per file : 143700000/20 =71,85,000 
The total number of records in each file : 71,85,000 * 5 = 3,59,25,000

當前PostgreSQL數據庫的配置：

我現在的機器：8GB RAM與酷睿i7 2代處理器。

我修改了以下到PostgreSQL配置文件：的shared_buffers：2 GB effective_cache_size：4 GB

目前成效注：

我已運行約10小時和性能如下：每個文件寫入的記錄總數約爲6,21,000 * 5 = 31,05,000

瓶頸是我每天只能租用它10小時（過夜），如果以這種速度處理，則需要大約11天，這對我的實驗來說太高了。

請告訴我如何改善。問題： 1.我應該在這些桌面上使用Symmetric多處理（它有2個內核，大約2 GB的RAM）。那麼這種情況下有什麼建議或優先選擇？ 2.如果我更改我的postgresql配置文件並增加內存，它會增強我的過程。 3.我應該使用多線程..在這種情況下，任何鏈接或指針將有很大的幫助

感謝 SREE aurovindh V

來源

2012-03-19 Sree Aurovindh

你正在查詢的東西，迭代結果寫一些東西？在這種情況下，數據庫可能不是瓶頸.. – Jayan 2012-03-19 08:05:29

@jayan嗨，我實際上每次查詢並將結果寫入hdf5格式。你能幫我優化它嗎？ – 2012-03-19 10:38:08

請參考以下鏈接

http://sourceforge.net/mailarchive/forum.php?thread_name=CAC4BLaLCMuA6%3DDated_MsPKp5-F_EyKbrUkMWS4g_D7grwpVXQ%40mail.gmail.com&forum_name=pytables-users

這可能是理解查詢效率很有幫助。

謝謝

來源

2012-03-19 18:16:07

小心總結鏈接提到的內容？ – 2013-08-27 14:03:48

鏈接已死亡。你能總結一下你現在使用的解決方案嗎？謝謝 – schoetbi 2015-07-13 20:13:44

使用Pytables優化HDF5中的寫入速度

回答

相關問題