2011-12-08 165 views
8

我試圖構建一個啓動其他完全獨立進程的Python守護進程。在Python中產生無限守護進程

總體思路是針對給定的shell命令,每隔幾秒輪詢一次,並確保該命令的實例正在運行。我們保留一個pidfiles的目錄,當我們調查時,我們刪除那些pid不再運行的pidfiles並啓動(併爲其製作pidfiles),但是我們需要去許多進程,其中包括k

子進程也需要完全獨立,這樣如果父進程死了,子進程就不會被殺死。從我讀過的書中看來,subprocess模塊似乎沒有辦法做到這一點。爲此,我使用的片斷這裏提到:

http://code.activestate.com/recipes/66012-fork-a-daemon-process-on-unix/

我做了幾個必要的修改(你會看到在連接段註釋掉行):

  1. 原始父進程無法退出,因爲我們需要啓動程序守護進程無限期地持續存在。
  2. 子進程需要以與父進程相同的cwd開始。

這裏是我的產卵fn和測試:

import os 
import sys 
import subprocess 
import time 

def spawn(cmd, child_cwd): 
    """ 
    do the UNIX double-fork magic, see Stevens' "Advanced 
    Programming in the UNIX Environment" for details (ISBN 0201563177) 
    http://www.erlenstar.demon.co.uk/unix/faq_2.html#SEC16 
    """ 
    try: 
     pid = os.fork() 
     if pid > 0: 
      # exit first parent 
      #sys.exit(0) # parent daemon needs to stay alive to launch more in the future 
      return 
    except OSError, e: 
     sys.stderr.write("fork #1 failed: %d (%s)\n" % (e.errno, e.strerror)) 
     sys.exit(1) 

    # decouple from parent environment 
    #os.chdir("/") # we want the children processes to 
    os.setsid() 
    os.umask(0) 

    # do second fork 
    try: 
     pid = os.fork() 
     if pid > 0: 
      # exit from second parent 
      sys.exit(0) 
    except OSError, e: 
     sys.stderr.write("fork #2 failed: %d (%s)\n" % (e.errno, e.strerror)) 
     sys.exit(1) 

    # redirect standard file descriptors 
    sys.stdout.flush() 
    sys.stderr.flush() 
    si = file('/dev/null', 'r') 
    so = file('/dev/null', 'a+') 
    se = file('/dev/null', 'a+', 0) 
    os.dup2(si.fileno(), sys.stdin.fileno()) 
    os.dup2(so.fileno(), sys.stdout.fileno()) 
    os.dup2(se.fileno(), sys.stderr.fileno()) 

    pid = subprocess.Popen(cmd, cwd=child_cwd, shell=True).pid 

    # write pidfile  
    with open('pids/%s.pid' % pid, 'w') as f: f.write(str(pid)) 
    sys.exit(1) 

def mkdir_if_none(path): 
    if not os.access(path, os.R_OK): 
     os.mkdir(path) 

if __name__ == '__main__': 
    try: 
     cmd = sys.argv[1] 
     num = int(sys.argv[2]) 
    except: 
     print 'Usage: %s <cmd> <num procs>' % __file__ 
     sys.exit(1) 
    mkdir_if_none('pids') 
    mkdir_if_none('test_cwd') 

    for i in xrange(num): 
     print 'spawning %d...'%i 
     spawn(cmd, 'test_cwd') 
     time.sleep(0.01) # give the system some breathing room 

在這種情況下,事情似乎很好地工作,而當父母被殺害的子進程仍然持續。但是,我仍然遇到了原始父級的產生限制。後〜650魚卵(不同時,孩子們已經完成),父進程扼流圈與錯誤:

spawning 650... 
fork #2 failed: 35 (Resource temporarily unavailable) 

有什麼辦法重寫我的產卵函數,這樣我可以無限期地產卵這些獨立的子進程?謝謝!

+0

你的流程表是什麼樣的? 「ps aux」會顯示一堆巨大的殭屍進程在等待收割嗎? (我在這裏沒有看到任何代碼在第一分支子節點上「等待()」)。 – sarnold

+0

我認爲是這樣的: http://pastebin.com/qDrFmHWk –

+0

考慮pyinotify來監視目錄中的更改投票。 – aitchnyu

回答

5

感謝your list of processes我願意說,這是因爲你已經打了一些基本限制之一:

  • RLIMIT nproc的給定用戶的最大進程數允許執行 - 請參閱setrlimit(2),bash(1)ulimit內置和/etc/security/limits.conf以瞭解有關每個用戶進程限制的詳細信息。
  • rlimit nofile給定進程被允許一次打開的文件描述符的最大數量。 (每一個新的進程可能會在三個新的管道,對孩子的stdinstdout,並stderr描述。)
  • 全系統的最大進程數;見/proc/sys/kernel/pid_max
  • 系統範圍內打開文件的最大數量;見/proc/sys/fs/file-max

因爲你沒有收穫你死去的孩子,許多這些資源的開放時間比他們應該的時間更長。你的第二個孩子正在妥善處理init(8) - 他們的父母已經死亡,所以他們重新回到init(8)init(8)將在他們死亡後(wait(2))清理。

但是,您的程序負責清理後的第一批兒童。 C程序通常會安裝一個signal(7)處理程序SIGCHLD,該處理程序調用wait(2)waitpid(2)來獲取子級的退出狀態,從而從內核內存中刪除它的條目。

但是腳本中的信號處理有點煩人。如果您可以明確地將SIGCHLD信號處理設置爲SIG_IGN,則內核將知道您對退出狀態不感興趣,並且將爲您收穫子女。

嘗試增加:

import signal 
signal.signal(signal.SIGCHLD, signal.SIG_IGN) 

近程序的頂部。

請注意,我不知道這對Subprocess有什麼作用。它可能不會很高興。如果是這種情況,那麼您需要install a signal handler爲您撥打wait(2)

+1

子進程假設處理SIGCHLD魔術。結合close_fds它應該可以解決某些python版本中的bug(請參閱http://bugs.python.org/issue4216)。 –

+0

信號設置和close_fds在OSX和Ubuntu上爲我解決了它!很容易處理50k。謝謝你們兩位! –

+0

@ILYA:如果'Subprocess'被用來創建_all_進程,它可能會正常工作;但在這種情況下,有一半的過程是手工創建的。 – sarnold

3

我稍微修改了你的代碼,並且能夠在沒有任何問題的情況下運行5000個進程。所以我同意@sarnold,你有一些根本的限制。我的修改是:

proc = subprocess.Popen(cmd, cwd=child_cwd, shell=True, close_fds=True)  
pid = proc.pid 

# write pidfile  
with open('pids/%s.pid' % pid, 'w') as f: f.write(str(pid)) 
proc.wait() 
sys.exit(1) 
+0

切換到:'PID = subprocess.Popen(CMD,CWD = child_cwd,殼=真,close_fds =真).pid' 但它仍然失敗: '產卵647 ... 叉#2失敗:35(資源暫時不可用) 產卵648 ... 分叉#1失敗:35(資源暫時不可用)' –

+0

close_fds與信號設置一起對我完全起作用! –