解析一個非常大的文件到mysql

我有一個任務，我需要解析一個非常大的文件，並將結果寫入mysql數據庫。「非常大」意味着我們正在討論約1.4GB的CSV數據，總計約1000萬行文本。解析一個非常大的文件到mysql

事情不是「怎麼做」，但如何做到這一點快。我的第一個方法是在沒有任何速度優化的情況下使用php，然後讓它運行幾天直到完成。不幸的是，它現在已經運行了48小時，並且只處理了總文件的2％。因此，這不是一種選擇。

文件格式如下：

A:1,2

其中逗號的量隔開的數字繼「：」可以是0-1000。該示例數據集必須進入一個表，如下所示：

| A | 1 | 
| A | 2 |

所以現在，我沒有這樣說：

$fh = fopen("file.txt", "r"); 

$line = ""; // buffer for the data 
$i = 0; // line counter 
$start = time(); // benchmark 

while($line = fgets($fh)) 
{ 
    $i++;  
    echo "line " . $i . ": "; 

    //echo $i . ": " . $line . "<br>\n"; 

    $line = explode(":", $line); 

    if(count($line) != 2 || !is_numeric(trim($line[0]))) 
    { 
     echo "error: source id [" . trim($line[0]) . "]<br>\n"; 
     continue; 
    } 

    $targets = explode(",", $line[1]); 

    echo "node " . $line[0] . " has " . count($targets) . " links<br>\n"; 

    // insert links in link table 
    foreach($targets as $target) 
    { 
      if(!is_numeric(trim($target))) 
      { 
       echo "line " . $i . " has malformed target [" . trim($target) . "]<br>\n"; 
       continue; 
      } 

      $sql = "INSERT INTO link (source_id, target_id) VALUES ('" . trim($line[0]) . "', '" . trim($target) . "')"; 
      mysql_query($sql) or die("insert failed for SQL: ". mysql_error()); 
     } 
} 

echo "<br>\n--<br>\n<br>\nseconds wasted: " . (time() - $start);

這顯然是不以任何方式速度進行了優化。任何提示重新開始？我應該換用另一種語言嗎？

來源

2013-02-06 xenonite

第一我腦子裏的事情就是使用'MySQLi'或'PDO'，這樣你就可以利用準備好的語句。 – Passerby

如果你的輸入數據是一個CSV文件，也許你可以使用LOAD DATA INFILE，更多信息：http://dev.mysql.com/doc/refman/5.0/en/load-data.html – m4t1t0

第一個優化是插入一個事務 - 每個100或1000行提交併開始一個新的事務。顯然你必須使用支持事務的存儲引擎。

然後通過top命令觀察CPU使用情況 - 如果您有多個內核，則mysql進程沒有太多工作，並且PHP進程執行大部分工作，重寫腳本以接受從參數跳過n行的參數開始時只能輸入10000行左右。然後啓動腳本的多個實例，每個實例都有不同的起點。

第三種解決方案是將文件轉換爲帶有PHP的CSV（根本不寫入，只是寫入文件），並使用LOAD DATA INFILE作爲m4t1t0的建議。

來源

2013-02-06 10:35:40 chiborg

不幸的是，這是運行在沒有太多資源的虛擬機上。所以我決定從一開始就跳過第二個解決方案。無論如何，第一個解決方案工作得很好。看到我的帖子下面... – xenonite

我發現你的描述相當混亂 - 它與你提供的代碼不匹配。

如果（！計數（$線）= 2 || is_numeric（修剪（$行[0]）））

微調這裏是多餘的 - 空白不改變行爲is_numberic。但是你已經說過，這條線的開頭是一個字母 - 因此這總是會失敗。

如果你想加快速度，那麼切換到使用輸入流處理而不是消息處理（PHP數組可能非常慢），或者使用不同的語言並將插入語句聚合到多行插入中。

來源

2013-02-06 10:40:15 symcbean

對不起，從一開始就沒有說清楚：一切都在數字！ A，B也是數字。 – xenonite

我會先用腳本創建一個SQL文件。然後通過在SQL文件的開始/結尾處放置適當的命令（可以讓腳本執行此操作），使用此http://dev.mysql.com/doc/refman/5.0/en/lock-tables.html來鎖定表。

然後，只需使用command工具將SQL注入數據庫（最好在數據庫所在的機器上）。

來源

2013-02-06 11:52:03

好吧，這將再次導致創建另一個huuuuuuuge - 甚至更大的文件，必須寫入數據庫。顯然然後沒有解析，但是... – xenonite

按照承諾，附上你會發現我在這篇文章中的解決方案。我基準它，它橫空出世，它比舊:) 確保40倍的速度（！） - 還是有很大的優化空間，但它的速度不夠快，我現在:)

$db = mysqli_connect(/*...*/) or die("could not connect to database"); 

$fh = fopen("data", "r"); 

$line = "";    // buffer for the data 
$i = 0;     // line counter 
$start = time();  // benchmark timer 
$node_ids = array(); // all (source) node ids 

mysqli_autocommit($db, false); 

while($line = fgets($fh)) 
{ 
$i++; 

echo "line " . $i . ": "; 

$line = explode(":", $line); 
$line[0] = trim($line[0]); 

if(count($line) != 2 || !is_numeric($line[0])) 
{ 
    echo "error: source node id [" . $line[0] . "] - skipping...\n"; 
    continue; 
} 
else 
{ 
    $node_ids[] = $line[0]; 
} 

$targets = explode(",", $line[1]); 

echo "node " . $line[0] . " has " . count($targets) . " links\n"; 

// insert links in link table 
foreach($targets as $target) 
{ 
    if(!is_numeric($target)) 
    { 
     echo "line " . $i . " has malformed target [" . trim($target) . "]\n"; 
     continue; 
    } 

    $sql = "INSERT INTO link (source_id, target_id) VALUES ('" . $line[0] . "', '" . trim($target) . "')"; 
    mysqli_query($db, $sql) or die("insert failed for SQL: ". $db::error); 
} 

if($i%1000 == 0) 
{ 
    $node_ids = array_unique($node_ids); 
    foreach($node_ids as $node) 
    { 
     $sql = "INSERT INTO node (node_id) VALUES ('" . $node . "')"; 
     mysqli_query($db, $sql); 
    } 
    $node_ids = array(); 

    mysqli_commit($db); 
    mysqli_autocommit($db, false); 
    echo "committed to database\n\n"; 
} 
} 

echo "<br>\n--<br>\n<br>\nseconds wasted: " . (time() - $start);

來源

2013-02-08 08:29:32 xenonite

進一步的優化將包括：a）編譯包含多個數據記錄的sql插入語句（這現在相當不理想......）b）使用預處理語句c）運行該腳本並行地解析文件的不同部分 – xenonite

解析一個非常大的文件到mysql

回答

相關問題