我正在運行批量導入數據到一個neo4j實例(我運行在2.2.0社區和企業版以及2.1.7社區)運行在服務器模式。我的應用程序在內存中創建了一堆節點,並且會按時週期停下來編寫一系列.csv文件並將密碼發送到neo4j實例以上載文件。 (這是由於使用普通的舊REST API運行應用程序時出現的性能問題)。垃圾收集調整/性能下降neo4j批量.csv導入
總的來說,我期待上傳類似150-5000萬個節點的東西,所以這是原則上neo4j聲稱能夠處理得相當好的東西的類型。
好吧,無論如何,當我針對生產數據運行時,我注意到的是,應用程序運行在兩種狀態 - 一種是csv上載每秒處理2k-8k節點,另一種是處理它的進程每秒80-200個節點。當你將上傳視爲一個時間序列時,這兩個狀態是交織在一起的,隨着時間的推移,它在慢速狀態下花費的時間越來越長。
節點通過一系列
MERGE (:{NODE_TYPE} {csvLine.key = n.primaryKey}) on create set [PROPERTY LIST];
語句創建的,我有我做的合併對一切指標。這並不像插入語句中的降級,因爲減速不是線性的,而是雙峯的,這就像neo4j實例中有垃圾收集一樣。調整neo4j JVM垃圾收集器進行頻繁批量插入的最佳方式是什麼?
neo4j.properties:
neostore.nodestore.db.mapped_memory=50M
neostore.relationshipstore.db.mapped_memory=500M
#neostore.relationshipgroupstore.db.mapped_memory=10M
neostore.propertystore.db.mapped_memory=100M
#neostore.propertystore.db.strings.mapped_memory=130M
neostore.propertystore.db.arrays.mapped_memory=130M
的Neo4j-wrapper.conf:
wrapper.java.additional=-XX:+UseConcMarkSweepGC
wrapper.java.additional=-XX:+CMSClassUnloadingEnabled
wrapper.java.additional=-XX:-OmitStackTraceInFastThrow
wrapper.java.additional=-XX:hashCode=5
wrapper.java.initmemory=8194
wrapper.java.maxmemory=8194
這感覺就像甜蜜點都整體堆內存和neostore東西。增加整體堆降低性能。也就是說,neo4j垃圾收集日誌經常會有GC(分配失敗)消息。
編輯:響應邁克爾飢餓:
該機擁有64 GB的RAM,並且似乎沒有任何被刷爆。它似乎也只是在任何時候只使用少量的內核。垃圾收集器分析顯示垃圾收集器似乎運行頻繁。
確切暗號語句,例如:
USING PERIODIC COMMIT 110000 LOAD CSV WITH HEADERS FROM 'file:///home/jschirmer/Event_2015_4_773476.csv' AS csvLine MERGE (s:Event {primaryKey: csvLine.primaryKey}) ON CREATE SET s.checkSum= csvLine.checkSum,s.epochTime= toInt(csvLine.epochTime),s.epochTimeCreated= toInt(csvLine.epochTimeCreated),s.epochTimeUpdated= toInt(csvLine.epochTimeUpdated),s.eventDescription= csvLine.eventDescription,s.fileName= csvLine.fileName,s.ip= csvLine.ip,s.lineNumber= toInt(csvLine.lineNumber),s.port= csvLine.port,s.processPid= csvLine.processPid,s.rawEventLine= csvLine.rawEventLine,s.serverId= csvLine.serverId,s.status= toInt(csvLine.status);
USING PERIODIC COMMIT 110000 LOAD CSV WITH HEADERS FROM 'file:///home/jschirmer/Event__File_2015_4_773476.csv' AS csvLine MATCH (n:SC_CSR{primaryKey: csvLine.Event_id}), (s:File{fileName: csvLine.File_id}) MERGE n-[:DATA_SOURCE]->s;
雖然有正在取得 我已經嘗試了單個併發事務以及運行serveral的這樣的語句數(〜3)這樣的語句並聯(這提供了大約2倍的改進)。我試着調整定期提交頻率和文件的大小。當csv文件大約爲10萬行時,這似乎最大化了性能,這意味着實際上,定期提交可以關閉。
我還沒有運行在statables上的配置文件。我會這麼做的,但我認爲通過使用MERGE ...來避免急切的合併問題...在創建語句上。
更新了OP。 –