優化perl腳本以根據文件中的日期過濾行

我是一個初學者，不僅僅是perl編程！請讓我知道需要改變什麼，或者可以做些什麼。優化perl腳本以根據文件中的日期過濾行

需要優化perl代碼才能運行得更快。對於測試運行，大約500MB的文件有300萬行，運行時間爲28分鐘。

我知道一個工具，它可以在15分鐘內處理3900萬行，但是我希望在不借助工具的情況下在命令提示符下實現此運行。

早些時候，我使用Date :: Manip和Date :: Parse，並轉移到DateTime，認爲它應該更快。

我的做法是如果日期是ISO-8601（即YYYY-MM-DD），我們並不需要對其進行驗證，我們可以按字典順序比較（即，LT和GT運營商。）

輸入文件日期格式爲07/18/2013 13:45:49
輸入文件大小42GB。
行數3900萬。
列分隔符：|〜|
平臺：GNU/Linux的

我已經試過「>」和「GT」，並沒有發現在運行任何區別。

Code snippet: 

use DateTime::Format::Strptime; 

my $idate = "07/17/2013 00:00:00"; 

my $Strp = DateTime::Format::Strptime->new(
        pattern  => '%m/%d/%Y %H:%M:%S', 
       ); 

my $inputdt = $Strp->parse_datetime($idate); 

open (FILE,"myinputfile.dat") or die "could not input File\n"; 
while (defined(my $line = <FILE>)) { 
    my @chunks = split '[|]~[|]', $line; 
    my $fdate = $Strp->parse_datetime($chunks[6]); 
    if ($fdate > $inputdt) { 
    open(FILEOUT, ">>myoutputfile.dat") or die "Could not write\n"; 
    print FILEOUT "$line"; 
         } 
} 
close(FILE); 
close (FILEOUT);

來源

2013-07-18 user2435192

爲什麼你的perl代碼（當你是初學者的時候）那個oldschool？ – 2013-07-18 12:56:45

您是否嘗試過暫時「取出」您的運行時間？此外，你可以看看：https：//metacpan.org/module/Devel::NTPTP#SYNOPSIS –

謝謝指出，我不知道這是oldschool。在爲當前問題尋求解決方案後，我會回到它。 – user2435192

有兩年半的大的性能問題在這裏：

你打開在每次迭代的輸出文件。在循環之前打開一次。
parse_datetime返回一個DateTime對象。 Perl的面向對象意味着很大的開銷。因爲你的模式已經很好的定義了，我們可以自己解析，然後移除所有的對象方向。
讀取GB範圍內的文件只需要一些時間。爲了加快速度，請升級您的硬件（例如，升級到SSD）。

要解析日期字符串轉換爲可排序的表現，我們只是重新安排各部分的字符串：

# %m/%d/%Y %H:%M:%S → %Y/%m/%d %H:%M:%S 
$fdate =~ s{^ ([0-9]{2}/[0-9]{2})/([0-9]{4}) }{$2/$1}x; 

if ($fdate gt $inputdate) { ... }

這將導致代碼

use strict; use warnings; 

use constant DATE_FIELD => shift @ARGV; 

my $inputdate = shift @ARGV; 
$inputdate =~ s{^ ([0-9]{2}/[0-9]{2})/([0-9]{4}) }{$2/$1}x; 

<>; # remove the header line 

while (<>) { 
    my $filedate = (split /\|~\|/, $_, DATE_FIELD + 2)[DATE_FIELD]; 
    $filedate =~ s{^ ([0-9]{2}/[0-9]{2})/([0-9]{4}) }{$2/$1}x; 
    print if $filedate gt $inputdate; 
}

的輸入和輸出以及開始日期在命令行中指定，例如

./script 6 '07/17/2013 00:00:00' myinputfile.dat >>myoutputfile.dat

來源

2013-07-18 13:39:09 amon

首先，感謝您的投入，我想你的if語句的意思$ inputdate而不是$ inputdt。我改變了它。我會更新它的方式。 – user2435192

'$ filedate'或'$ inputdate'未定義，因此命令行或正則表達式中的日期無法賦予其中一個值。請你把所有的'，'太:-) –

我也許過於盲目地致力於CPAN，但可能這得益於'正則表達式:: Common'？ –

優化perl腳本以根據文件中的日期過濾行

回答

相關問題