2013-06-28 58 views
1

我正在用Python編寫一個解析代碼,它需要html頁面並提取某些信息。 我的html存儲在名爲filelist.txt的文檔中和名爲rawdata的目錄中。 我目前用於獲取文件的方法是這樣的:從目錄中獲取文件-python,美麗的湯

def getfiles(foldername): 

    infile = "filelist.txt" 
    infileh = open(infile, "r") 
    onlyfiles = [] 
    for line in infileh: 
      onlyfiles.append(line.strip()) 

    #print onlyfiles                    
    #onlyfiles = [ f for f in listdir(foldername) if isfile(join(foldername,f)) ]    
    return onlyfiles 

和:

filepath ="/mnt/nfs6/wikipedia.proj/odesk/rawdata/" + filename 
    #print filepath                    
    filehandle = open(filepath, "r") 
    soup = BeautifulSoup(filehandle) 

但現在我需要改變我的方法:文件沒有全部位於一個大文件,而文本的他們在許多獨立的目錄中 - 我希望我的代碼遍歷每個目錄並獲取文件並在其上運行代碼。 我並不困惑如何循環,而是如何編寫'getfiles'方法進入非特定目錄。 任何人都可以提出一個方法或指導我的信息,我可以瞭解更多關於此? (我正在使用python,Beautiful Soup和os)

回答

0

os.path.walk是蟒蛇的findos.path中的其他方法如listdir將會很有用。