我正在處理大型數據集(數以百萬計的記錄,有時甚至是數百萬),並且希望使用與R鏈接良好的數據庫程序。我試圖在mysql和sqlite。數據是靜態的,但是我需要做很多查詢。用於大型數據集的sqlite或mysql
在這種link to sqlite help,它指出:
「隨着1024個字節的默認頁面大小,SQLite數據庫的大小限制爲2個千兆字節(241個字節),即使它能夠處理更大的數據庫, SQLite將整個數據庫存儲在一個單獨的磁盤文件中,許多文件系統將文件的最大大小限制爲小於這個值,所以如果你正在考慮使用這種數據庫,那麼你最好考慮使用一個客戶/服務器數據庫引擎來傳播其內容跨多個磁盤文件,也可能跨多個卷。「
我不確定這是什麼意思。當我嘗試使用mysql和sqlite時,似乎mysql更快,但我還沒有構建非常嚴格的速度測試。我想知道,由於我的數據集的大小,對於我來說mysql是比sqlite更好的選擇。上面的描述似乎表明,這可能是這種情況,但我的數據不在2TB附近。
有一個discussion on stackoverflow觸及此並引用相同的SQLite信息頁面,但它並沒有完全解決這個問題。
我很感激任何洞察力來理解文件系統的最大文件大小的這種約束,以及這會如何影響索引表和運行查詢的速度。這對我決定使用哪個數據庫進行分析確實有幫助。
他說什麼...... – Bohemian 2011-06-11 14:14:35