快速批量保存Hibernate的方法？

我有一個程序逐行讀取文本文件，並從每行創建一個Hibernate實體對象，並將它們保存。我有幾個這樣的文本文件要處理，每個文件都有大約30萬行。我發現我目前的執行速度非常慢，而且我想知道是否有任何事情可以改進。快速批量保存Hibernate的方法？

我的主要方法，通過線處理文本文件行，像這樣：

// read the file line by line 
FileInputStream fileInputStream = new FileInputStream(new File(fileName)); 
InputStreamReader inputStreamReader = new InputStreamReader(fileInputStream); 
BufferedReader bufferedReader = new BufferedReader(inputStreamReader); 
int lineCount = 0; 
String line = bufferedReader.readLine(); 
while (line != null) 
{ 
    // convert the line into an Observations object and persist it 
    convertAndPersistObservationsLine(line); 

    // if the number of lines we've processed has built up to the JDBC batch size then flush 
    // and clear the session in order to control the size of Hibernate's first level cache 
    lineCount++; 
    if (lineCount % JDBC_CACHE_SIZE == 0) 
    { 
     observationsDao.flush(); 
     observationsDao.clear(); 
    } 

    line = bufferedReader.readLine(); 
}

的convertAndPersistObservationsLine（）方法只是拆分文本行成標記，創建一個新的實體對象，從數據填充實體的領域令牌，然後通過調用Hibernate的Session.saveOrUpdate（）方法的DAO保存對象。 DAO方法flush（）和clear（）是直接調用相應的Hibernate Session方法。

Hibernate屬性'hibernate.use_second_level_cache'設置爲false，並且Hibernate屬性'hibernate.jdbc.batch_size'設置爲50，Java常量JDBC_CACHE_SIZE也是如此。

有人可以提出一個更好的方法來解決這個問題，或者對上面的任何調整都可以提高這個批量加載程序的性能嗎？

在此先感謝您的幫助。

- 詹姆斯

來源

2010-08-12 James Adams

你有正確設置交易，沒有自動提交等？你的dao不會意外刷新會話持續嗎？你能分析代碼，看看大部分時間都花在哪裏嗎？你能否啓用sql日誌來驗證沒有中間刷新？ – 2010-08-12 16:31:50

是否最好將Hibernate屬性'hibernate.connection.autocommit'設置爲false（默認情況下該值爲true）？我的DAO不會調用flush（），只會在返回前調用saveOrUpdate（）。我還沒有分析代碼，也沒有監視中間沖洗的日誌，感謝這些建議。 – 2010-08-12 16:47:19

亞當我建議看一下由hibernate和spring生成的日誌，以查看插入過程中發生了什麼;我認爲無論是Spring還是Hibernate都會在事務中禁用自動提交（使設置無關緊要，但您應該確認）。 – 2010-08-12 18:10:36

有幾件事情：

你可以量化「速度奇慢」？你實現每秒插入多少個插入點？你認爲你應該有什麼比率？數據庫本身是什麼類型的負載？其他人是否同時從桌上讀書？
如何連接到數據庫？所有這一切發生在單個事務中重新使用相同的連接？
您是否有機會使用identity標識符？本細則規定，JDBC batching is disabled silently if you are：

，Hibernate在JDBC級別的關閉插入配料透明的，如果你使用的身份標識符生成。

來源

2010-08-12 16:10:39

感謝您的迴應，馬特。 1.它看起來像我每秒大約4插入。我能期望大幅改善這一點嗎？ 2.我的DAO對象包含一個SessionFactory對象，它通過Spring依賴注入進行連接。我使用的SessionFactory類是org.springframework.orm.hibernate3.annotation.AnnotationSessionFactoryBean。我使用的事務管理器類是org.springframework.orm.hibernate3.HibernateTransactionManager，我在Spring應用程序上下文配置文件中啓用了基於註釋的事務行爲。 – 2010-08-12 16:27:55

DAO類將此作爲事務性設置： @Transactional（propagation = Propagation.REQUIRED，readOnly = false，isolation = Isolation.DEFAULT） SessionFactory具有DataSource屬性，並且這是在Spring應用程序上下文中配置的URL，用戶/密碼，驅動程序類的正常設置等。 3.我認爲我沒有使用身份標識符，但實體類的ID字段如下所示： @Id @Column（name =「ENTITY_ID」） @GeneratedValue（strategy = GenerationType.AUTO） public T getId（） { return id; } – 2010-08-12 16:33:39

對於沒有格式化上述評論，我表示抱歉 - 我嘗試使用基本的HTML和Markdown，但從未能夠獲取任何內容，並始終以一個運行字符串結尾。 – 2010-08-12 16:39:53

代碼本身和Hibernate配置看起來是正確的（正確的我的意思是它們遵循文檔中的batch insert習語）。但是，這裏有一些額外的建議：

如前所述，使絕對確定您沒有使用ID生成器，如IDENTITY擊敗批處理。當使用GenerationType.AUTO時，持久性提供者將根據數據庫選擇合適的策略，因此，根據數據庫的不同，您可能必須更改TABLE或SEQUENCE策略（因爲Hibernate可以使用hi-lo算法緩存ID ）。

還要確保Hibernate按預期進行批處理。爲此，請激活日誌記錄並監視BatchingBatcher以跟蹤正在執行的批處理的大小（將被記錄）。

在你的特殊情況下，你可能會考慮使用the StatelessSession interface（當然問題一旦解決）。

來源

2010-08-12 20:52:22

如果您正在使用MySQL，您可能需要打開rewriteBatchedStatements，因爲MySQL不支持批處理形式的準備語句參數綁定。它會將插入語句重寫爲「INSERT INTO YourEntity VALUES（...），（...），（...）」。

請參考： http://shengchien.blogspot.com/2010/10/hibernate-batch-processing-with-mysql.html

來源

2010-10-25 16:07:27