用紅寶石一次讀取一行文件N行

我有一個由文件名組成的大文件（數百個megs），每行一個。用紅寶石一次讀取一行文件N行

我需要遍歷文件名列表，併爲每個文件名分出一個進程。我一次最多需要8個分叉進程，我不想一次將整個文件名列表讀入RAM。

我甚至不知道從哪裏開始，任何人都可以幫助我？

2010-03-23 Sam

這個問題的標題無關與問題本身。 –

這聽起來像Process module將對此任務有用。這裏的東西我趕緊扔在一起作爲一個起點：

include Process 

i = 0 
for line in open('files.txt') do 
    i += 1 
    fork { `sleep #{rand} && echo "#{i} - #{line.chomp}" >> numbers.txt` } 

    if i >= 8 
     wait # join any single child process 
     i -= 1 
    end 
end 

waitall # join all remaining child processes

輸出：

 
hello 
goodbye 

test1 
test2 
a 
b 
c 
d 
e 
f 
g 
$ ruby b.rb 
$ cat numbers.txt 
1 - hello 
3 - 
2 - goodbye 
5 - test2 
6 - a 
4 - test1 
7 - b 
8 - c 
8 - d 
8 - e 
8 - f 
8 - g

其工作原理是：

for line in open(XXX)會懶洋洋地遍歷文件的行你指定。
fork會產生一個執行給定塊的子進程，在這種情況下，我們使用反引號來指示要由shell執行的內容。請注意，rand在此處返回值0-1，因此我們正在睡眠不到一秒，並且我撥打line.chomp刪除了我們從line得到的尾隨換行符。
如果我們累計了8個或更多進程，請致電wait停止一切，直到其中一個返回。
最後，在循環之外，在退出腳本之前調用waitall以加入所有剩餘的進程。

來源

2010-03-23 02:24:52

謝謝！這看起來很有希望。我一直在用紅寶石玩耍，但還沒有完成「包括過程」。那是什麼給你買的？ – Sam

沒關係。我想通了:)再次感謝！ – Sam

File.foreach("large_file").each_slice(8) do |eight_lines| 
    # eight_lines is an array containing 8 lines. 
    # at this point you can iterate over these filenames 
    # and spawn off your processes/threads 
end

來源

2010-03-23 13:24:47

這不會起作用，因爲它會產生N/8個進程（N是文件中的行數）。你可以改爲'each_slice（N/8）'，但這需要將整個文件加載到一個數組中，這是OP想要避免的。 –

我假設在循環內，OP會產生8個進程並在繼續之前等待它們。我在鏈接可枚舉的方法，所以它不會一次讀取整個文件。 –

啊，對不起。但是這種方式效率不高，因爲程序必須等待所有八個過程才能在接下來的八個產卵之前完成，而且您將只有部分時間具有100％的流程利用率。在極端情況下，您可以快速完成七個過程，並且您必須等待一個長時間運行的左側。 –

這裏是馬克的解決方案包裹起來作爲ProcessPool類，可能是有幫助的它周圍的（和請糾正我，如果我犯了一些錯誤）：

class ProcessPool 
    def initialize pool_size 
    @pool_size = pool_size 
    @free_slots = @pool_size 
    end 

    def fork &p 
    if @free_slots == 0 
     Process.wait 
     @free_slots += 1 
    end 
    @free_slots -= 1 
    puts "Free slots: #{@free_slots}" 
    Process.fork &p 
    end 

    def waitall 
    Process.waitall 
    end 
end 

pool = ProcessPool.new 8 
for line in open('files.txt') do 
    pool.fork { Kernel.sleep rand(10); puts line.chomp } 
end 
pool.waitall 
puts 'finished'

來源

2010-03-23 14:30:21

標準庫文檔Queue已有

require 'thread' 

queue = Queue.new 

producer = Thread.new do 
    5.times do |i| 
    sleep rand(i) # simulate expense 
    queue << i 
    puts "#{i} produced" 
    end 
end 

consumer = Thread.new do 
    5.times do |i| 
    value = queue.pop 
    sleep rand(i/2) # simulate expense 
    puts "consumed #{value}" 
    end 
end 

consumer.join

雖然我確實發現它有點冗長。

維基百科將其描述爲一個thread pool pattern

來源

2010-03-23 22:31:12

ARR = IO.readlines（「文件名」）

來源

2011-05-05 04:55:59 everyna

用紅寶石一次讀取一行文件N行

回答

相關問題