這是用shell打印特定行的最快方法嗎？

我有一個5000萬行的文件，我必須隨機輸出1000行。這是用shell打印特定行的最快方法嗎？

首先，我創建了1000個隨機數;那麼我使用

sed -n "$random{p;q}" file

它真的很慢;一行輸出將花費至少5-6秒。

所以我認爲我應該優化打印特定線速度。

我們有很多方法來打印特定行：

sed -n "$line{p;q}" file 

awk "NR==$line{print}" file 

head -$line file | tail -1

這一切都慢......耗資約5-6秒鐘，以打印特定的行。

shell中是否有其他方式來打印特定的行？或者python，perl可以比shell更快？或者我的方式來解決這個問題錯了？

---------------------------------------- SPLIT ----- -----------------------------------------

迭代1000個隨機數和每次使用shell一次，可能會產生1000次io操作。也許我應該使用一個數組來先保存隨機數並迭代文件一次。

random_array=() 

awk '{if (NR in $random_array) print;}' file

好吧，我將測試這種方法和結果粘貼任何後來

來源

2013-04-16 Flypig

我不認爲AWK理解Bash的數組。 – icktoofay

你的要求是什麼？以隨機順序50,000,000行中的1,000行，還是可以按文件中顯示的順序選擇1,000行？無論哪種方式，我可能會使用Perl，並讓它產生範圍爲1..50,000,000的1,000個數字，然後逐行掃描文件（但只有一次，而不是1,000次），打印或保存行對應於所需的行號之一。打印使用較少的內存，但按順序打印行;保存允許您按生成數字的順序打印行。 –

也許「更快」的解決方案而不是「最快」就足夠了？特別是，一個打印1000個隨機行的'sed'腳本將比1000個獨立的'sed'運行快得多。 'sed -n'17p; 42p; 57p; 89 {p; q}'文件' – tripleee

在文件中的行的順序，無需在內存中的所有行：

awk ' 
    NR==FNR { next } 
    FNR==1{ 
    srand; 
    n=NR-1 
    for(i=1; i<=1000; i++) { 
     line=0 
     while(!line || line in A) line=int(rand*n)+1 
     A[line] 
    } 
    } 
    FNR in A 
' infile infile

來源

2013-04-16 05:43:59 Vijay

無論哪一種工具你使用，找到這些線有固有的成本。實質上，您需要每次遍歷該大文件，查找並計算換行符號。

有兩個解決方案，我可以看到：

預計算一個合格的文件中的行偏移，然後用lseek找到打印他們。您可以存儲每隔100或1000行的偏移量以節省空間。
預先生成行號的整個列表，並在文件中一次收集行。然後打印它們。（如果您希望線條的順序是隨機的，您不能隨意打印）。

其中任何一種都很難在shell中完成。對於僅限shell的解決方案，請嘗試devnull的建議，shuf。但不是1，你想要使用1000：

shuf -n 1000 file

來源

2013-04-16 06:14:21

如果你只是想從一個更大規模的數據文件中的特定行，成本會根據您的要求增加。如果你的文件是在一個週期（一週或更長時間），預處理是必要一成不變的，還有就是你的問題的解決方案：

文件分割成一些更小的尺寸與同線
貼每個文件放到一個文件中;之後，鏈接1將包含1 1 + n 1 + 2n信息的信息
一個包裝殼來計算行將是必要的。

如您所知，以上只是一種方法。

來源

2013-04-16 06:29:50 kevinsun

IO是關鍵點 – kevinsun

爲避免讀取整個文件，您可以獲取文件的大小，然後生成一個包含0和該數字之間的1000個偏移量的列表。這些通常是位於一行中間的位置，但是您可以閱讀下一個換行符，然後閱讀並打印以下行。但是，這會對文件的第一行引入偏見。如果您對平均線長有一個猜測，您可以從生成的偏移量中減去該數（任何負面結果將意味着從偏移量0讀取和打印。）

這是一個概念的快速證明。爲了說明的目的，我假設平均線長約75個字符。這也影響公平性（選擇長線後的線更有可能）。最後一行的處理也不公平;如果它短於75個字符，則永遠不能選擇（！） - 您可以嘗試通過計算實際讀取的行的實際平均行長度來解決該問題，但我將其留作練習，以便保留這個例子相當緊湊。

#!/usr/bin/perl 

use strict; 
use warnings; 

use Fcntl (qw(SEEK_SET SEEK_CUR SEEK_END)); 

my $n = (defined @ARGV ? shift @ARGV : '--help'); 
die "Syntax: $0 number file\n" unless @ARGV == 1 and $n =~ m/^[0-9]+$/; 

open (F, "<", $ARGV[0]) or die "$0: Could not open $ARGV[0]: $!\n"; 

seek (F, 0, SEEK_END) or die "$0: Could not SEEK_END $ARGV[0]: $!\n"; 
my $max = tell(F); 

my %seen; 
for (my $i=0; $i < $n; ++$i) 
{ 
    my $offset = int(rand($max))-75; 
    my $first = 0; 
    if ($offset < 0) 
    { 
     $offset = 0; 
     $first = 1; 
    } 
    seek (F, $offset, SEEK_SET) 
     or die "$0: Could not SEEK_SET $ARGV[0]: $!\n"; 
    <F> unless $first; 
    redo if eof (F); # Cheap trick, just retry if at eof 
    redo if $seen{tell(F)}++; 
    print scalar(<F>); 
}

我添加了代碼以避免重複;這是%seen散列。

來源

2013-04-16 16:04:10 tripleee

如果您請求的文件中包含的行數超過文件中的行數，這將運行無限循環。我想不出一種非常優雅的方式來檢測這種情況。也許作爲一個粗略的解決方法計算迭代次數，並以1000或2 * n或更小者爲上限。 – tripleee

這是用shell打印特定行的最快方法嗎？

回答

相關問題