Python CSV到SQLite

我正在「轉換」一個大的（約1.6GB）CSV文件，並將CSV的特定字段插入到SQLite數據庫中。基本上我的代碼如下所示：Python CSV到SQLite

import csv, sqlite3 

conn = sqlite3.connect("path/to/file.db") 
conn.text_factory = str #bugger 8-bit bytestrings 
cur = conn.cur() 
cur.execute('CREATE TABLE IF NOT EXISTS mytable (field2 VARCHAR, field4 VARCHAR)') 

reader = csv.reader(open(filecsv.txt, "rb")) 
for field1, field2, field3, field4, field5 in reader: 
    cur.execute('INSERT OR IGNORE INTO mytable (field2, field4) VALUES (?,?)', (field2, field4))

一切正常，我期望它有例外......它需要時間來處理數量驚人的。我編碼錯了嗎？是否有更好的方法來實現更高的性能並實現我所需要的（只需將CSV的幾個字段轉換爲SQLite表）？

**編輯 - 我試着直接將csv導入到sqlite中，正如所建議的，但事實證明我的文件在字段中有逗號（例如"My title, comma"）。這是導入錯誤。它似乎有太多的事件的手動編輯文件...

任何其他的想法？**

來源

2011-05-09 user735304

這是一個很大的文件。多久時間？ – Blender 2011-05-09 20:58:51

有多少重複記錄？如果數量很多，保留已經插入的記錄的本地「集合」可能會更快，並且跳過對重複項的SQL調用。 – kindall 2011-05-09 21:06:18

[Here]（http://dev.mysql.com/doc/refman/5.5/en/insert-speed。HTML）是一些MySQL批量加載速度提示。 – kindall 2011-05-09 21:52:01

它可以直接導入CSV：

sqlite> .separator "," 
sqlite> .import filecsv.txt mytable

http://www.sqlite.org/cvstrac/wiki?p=ImportingFiles

來源

2011-05-09 21:01:20 fengb

「等等等等等等，」123「會導致問題......圍繞這個問題的想法？ – user735304 2011-05-09 23:50:27

默認情況下，似乎沒有內置的轉義方式。此外，引號將是字符串內的文字。使用CSV解析並使用不同分隔符輸出來更改文本可能是有意義的，但這可能會首先破壞使用導入工具的目的。 – fengb 2011-05-10 01:32:35

嘗試：.mode csv而不是.separator，請參閱： http://stackoverflow.com/questions/14947916/import-csv-to-sqlite/24582022#24582022 – NumesSanguis 2014-12-03 14:40:56

嘗試使用交易。

begin  
insert 50,000 rows  
commit

這將定期提交數據，而不是每行一次。

來源

2011-05-10 20:24:10

克里斯是正確的使用交易;將數據分成塊並存儲。

「......除非已經存在於一個事務中，否則每個SQL語句都有一個新的事務啓動它，這是非常昂貴的，因爲它需要重新打開，寫入和關閉每個語句的日誌文件。通過包裝與BEGIN TRANSACTION SQL語句的順序是可以避免的;和END交易;語句不改變數據庫的語句也獲得此加速「 - 來源：http://web.utk.edu/~jplyon/sqlite/SQLite_optimization_FAQ.html

」 ...有。另一個可以用來加速SQLite事務的技巧：無論何時你需要做多個數據庫寫操作，把它們放到一個事務中，而不是每次寫入（和鎖定）文件寫查詢發出後，只有在事務完成時寫纔會發生。「 - 來源：How Scalable is SQLite?

import csv, sqlite3, time 

def chunks(data, rows=10000): 
    """ Divides the data into 10000 rows each """ 

    for i in xrange(0, len(data), rows): 
     yield data[i:i+rows] 


if __name__ == "__main__": 

    t = time.time() 

    conn = sqlite3.connect("path/to/file.db") 
    conn.text_factory = str #bugger 8-bit bytestrings 
    cur = conn.cur() 
    cur.execute('CREATE TABLE IF NOT EXISTS mytable (field2 VARCHAR, field4 VARCHAR)') 

    csvData = csv.reader(open(filecsv.txt, "rb")) 

    divData = chunks(csvData) # divide into 10000 rows each 

    for chunk in divData: 
     cur.execute('BEGIN TRANSACTION') 

     for field1, field2, field3, field4, field5 in chunk: 
      cur.execute('INSERT OR IGNORE INTO mytable (field2, field4) VALUES (?,?)', (field2, field4)) 

     cur.execute('COMMIT') 

    print "\n Time Taken: %.3f sec" % (time.time()-t)

來源

2011-08-21 08:43:18 Sam

此代碼的其他用戶遇到了嘗試使用的問題'len（）'與他們的CSV閱讀器：http://stackoverflow.com/questions/18062694/sqlite-transaction-for-csv-importing/18063276#18063276 – rutter 2013-08-05 16:39:46

正如有人說（克里斯和薩姆），交易做提高了不少插入性能

請讓我推薦另一種選擇，使用一套Python的工具。以CSV，csvkit工作

安裝：

pip install csvkit

解決你的問題

csvsql --db sqlite:///path/to/file.db --insert --table mytable filecsv.txt

來源

2012-03-28 18:54:45 migonzalvar

Python CSV到SQLite

回答

相關問題