我正在用Python編寫一個解析代碼,它需要html頁面並提取某些信息。 我的html存儲在名爲filelist.txt的文檔中和名爲rawdata的目錄中。 我目前用於獲取文件的方法是這樣的:從目錄中獲取文件-python,美麗的湯
def getfiles(foldername):
infile = "filelist.txt"
infileh = open(infile, "r")
onlyfiles = []
for line in infileh:
onlyfiles.append(line.strip())
#print onlyfiles
#onlyfiles = [ f for f in listdir(foldername) if isfile(join(foldername,f)) ]
return onlyfiles
和:
filepath ="/mnt/nfs6/wikipedia.proj/odesk/rawdata/" + filename
#print filepath
filehandle = open(filepath, "r")
soup = BeautifulSoup(filehandle)
但現在我需要改變我的方法:文件沒有全部位於一個大文件,而文本的他們在許多獨立的目錄中 - 我希望我的代碼遍歷每個目錄並獲取文件並在其上運行代碼。 我並不困惑如何循環,而是如何編寫'getfiles'方法進入非特定目錄。 任何人都可以提出一個方法或指導我的信息,我可以瞭解更多關於此? (我正在使用python,Beautiful Soup和os)