如何使用R DBI的dbWriteTable（）將二進制數據寫入SQLite？

例如，如何執行使用dbWriteTable()等效以下SQL（其插入到一個場BINARY(16)）如何使用R DBI的dbWriteTable（）將二進制數據寫入SQLite？

INSERT INTO Table1 (MD5) VALUES (X'6717f2823d3202449201145073ab871A'),(X'6717f2823d3202449301145073ab371A')

？做

dbWriteTable(db, "Table1", data.frame(MD5 = "X'6717f2823d3202449201145073ab871A'", ...), append = T, row.names = F)

似乎不工作 - 它將值寫爲文本。

最後，我將要編寫一個大數據量的哈希散列圖，對於使用dbWriteTable來說非常完美。但我只是想不出如何INSERTdata.frame轉換成二進制數據庫字段。

來源

2013-12-12 mchen

閱讀源代碼，它看起來像列表被轉換爲BLOBS，但它並不明顯。我添加了一個問題，注意原始矢量應該存儲爲blob：https://github.com/rstats-db/RSQLite/issues/28 – hadley

所以這裏有兩種可能性似乎工作。第一個在循環中使用dbSendQuery(...)（您可能已經想到了這一點......）。

db.WriteTable = function(con,table,df) { # no error checking whatsoever... 
    require(DBI) 
    field <- colnames(df)[1] 
    for (i in 1:nrow(df)) { 
    query <- sprintf("INSERT INTO %s (%s) VALUES (X'%s')",table,field,df[i,1]) 
    rs <- dbSendQuery(con,statement=query) 
    } 
    return(nrow(df)) 
} 

library(DBI) 
drv <- dbDriver("SQLite") 
con <- dbConnect(drv) 
rs <- dbSendQuery(con, statement="CREATE TABLE hash (MD5 BLOB)") 

df <- data.frame(MD5=c("6717f2823d3202449201145073ab871A", 
         "6717f2823d3202449301145073ab371A")) 

rs  <- db.WriteTable(con,"hash",df) 
result.1 <- dbReadTable(con,"hash") 
result.1 
#                MD5 
# 1 67, 17, f2, 82, 3d, 32, 02, 44, 92, 01, 14, 50, 73, ab, 87, 1a 
# 2 67, 17, f2, 82, 3d, 32, 02, 44, 93, 01, 14, 50, 73, ab, 37, 1a

如果散列的數據幀是非常大的，那麼df.WriteFast(...)做同樣的事情db.WriteTable(...)只有它應該會更快。

db.WriteFast = function(con.table,df) { 
    require(DBI) 
    field <- colnames(df)[1] 
    lapply(unlist(df[,1]),function(x){ 
     dbSendQuery(con, 
        statement=sprintf("INSERT INTO %s (%s) VALUES (X'%s')", 
             table,field,x))}) 
}

注意result.1是一個數據幀，如果我們使用它調用dbWriteTable(...)我們能夠成功地寫散列到BLOB。所以這是可能的。

str(result.1) 
# 'data.frame': 2 obs. of 1 variable: 
# $ MD5:List of 2 
# ..$ : raw 67 17 f2 82 ... 
# ..$ : raw 67 17 f2 82 ...

第二種方法利用的r raw數據類型來創建結構類似於result.1的數據幀，並傳遞到dbWriteTable(...)。你會認爲這很容易，但不會。

h2r = function(x) { 
    bytes <- substring(x, seq(1, nchar(x)-1, 2), seq(2, nchar(x), 2)) 
    return(list(as.raw(as.hexmode(bytes)))) 
} 
hash2raw = Vectorize(h2r) 

df.raw=data.frame(MD5=list(1:nrow(df))) 
colnames(df.raw)="MD5" 
df.raw$MD5 = unname(hash2raw(as.character(df$MD5))) 
dbWriteTable(con, "newHash",df.raw) 
result.2 <- dbReadTable(con,"newHash") 
result.2 

all.equal(result.1$MD5,result.2$MD5) 
# [1] TRUE

在這種方法中，我們創建具有一個柱，MD5，其中每個元素是原始字節的列表的數據幀df.raw。效用函數h2r(...)採用散列的字符表示形式，將其分解爲一個向量char(2)（字節），然後將其中的每一個解釋爲十六進制（as.hexmode(...)），將結果轉換爲原始結果（as.raw(...)），最後將結果返回爲一個列表。 Vectorize(...)是一個包裝，它允許hash2raw(...)將向量作爲其參數。我個人認爲你最好使用第一種方法：利用SQLite的內部機制將十六進制寫入BLOB，並且它更容易理解。

來源

2013-12-12 17:31:02 jlhoward

謝謝，但這不起作用。 R似乎在寫入之前將'0x6717f2823d3202449201145073ab871A'轉換爲'1.370348e + 38'，所以最終只有十進制表示被寫入。 'X'...''是告訴SQLite這個值是寫成二進制的：http://www.sqlite.org/lang_expr.html#litvalue – mchen

也許我誤解了，但二進制表示，例如'255'和'0xFF'是相同的。因此，例如，如果您向BLOB寫入0xFF並稍後再讀取它，則將其與「0xFF」進行比較將產生「TRUE」。另一方面，如果你爲BLOB寫''X'FF'「'，你存儲char（5）的二進制表示。 – jlhoward

是的，我明白你的意思 - 散列太長而無法存儲在R數字中。我已經完全重寫了答案。看一看 - 我認爲這些方法實際上工作... – jlhoward

如何使用R DBI的dbWriteTable（）將二進制數據寫入SQLite？

回答

相關問題