的Python：文件名比較在文件夾中

FILENAME1：Data_A_2015-07-29_16-25-55-313.txt的Python：文件名比較在文件夾中

文件名2：Data_B_2015-07-29_16-25-55-313.txt

我需要的所有酒坊比較文件夾，以確保每一個時間戳，有一個和一個B文件。

文件名的第二和百分之一秒的部分並不總是在這兩個文件中相同的，所以真正重要的是DATE_％H：％M - > 2頁的文件，每分鐘就是我正在尋找

（如： Data_A_2015-07-29_16-25-55-313.txt和Data_B_2015-07-29_16-25-54-200.txt屬於一起）

我嘗試下面的代碼：

for root,dirs,files in os.walk(source): 
for a_items in files: 
    if a_items.__contains__("A"): 
     A_ALL_List.append(a_items)   # One List with all A Files 
     a_1 = a_item.split('_')[1]   # A Part 
     a_2 = a_item.split('_',)[2]   # Date Part 
     a_3 = a_item.split('_')[3]   # TimeStamp %H%M%S%SS incl. .txt 
     a_4 = a_3.rsplit('.txt',1)[0]  # TimeStamp %H%N%S%SS excl. .txt 
     a_5 = a_4.rsplit ('-',1)[0]   # TimeStamp %H%M%S 
     a_6 = a_5.rsplit ('-',1)[0]   # TimeStamp %H%M 
     a_lvl1 = a_1 + '_' + a_2 +'_' + a_3 # A_Date_FULLTimeStamp.txt 
     A_Lvl1.append(a_lvl1)    # A_Date_TimeStamp.txt LIST 
     a_lvl2 = a_lvl1.rsplit('.txt',1)[0] # Split .txt 
     A_Lvl2.append(a_lvl2)    # A_Date_TimeStamp LIST 
     a_lvl3 = a_1 + '_' + a_2 + '_' + a_5 # A_Date_(%H%M%S)TimeStamp 
     A_Lvl3.append(a_lvl3)    # A_Date_(%H%M%S)TimeStamp LIST 
     a_lvl4 = a_2 + '_' + a_4    # Date_FULLTimeStamp 
     A_Lvl4.append(a_lvl4)    # Date_FULLTimeStamp LIST 
     a_lvl5 = a_2 + '_' + a_5    # Date_(%H%M%S)TimeStamp 
     A_Lvl5.append(a_lvl5)    # Date_(%H%M%S)TimeStamp LIST 
     a_lvl6 = a_2 + '_' + a_6    # Date_(%H%M)TimeStamp 
     A_Lvl6.append(a_lvl6)    # Date_(%H%M)TimeStamp LIST 
for b_items in files:      # Did the same for B now 
    if b_items.__contains__("B"): 
     B_All_List.append(b_items)

這樣，我得到了僅包含我要比較的零件兩個文件名稱列表 - >如如果我比較列表A_Lvl6和B_Lvl6，我只會比較日期部分和時間戳中的小時和分鐘。

我想通了，有較多的B文件不是一個文件，這樣我就感動：

for Difference in B_Lvl6: # Data in B 
if Difference not in A_Lvl6: # Not in A 
    DiffList.append(Difference)

這樣，我得到了數據的輸出，我沒有一個文件，但乙文件 - > DiffList

現在我想從該DiffList中查找相應的B文件（因爲沒有匹配的A文件）並將這些B文件移動到另一個文件夾 - >在主文件夾中應該只有A和B文件具有匹配時間戳（％H％M）

我的問題（最後）：

如何管理最後一部分，我希望擺脫沒有TimeStamp合作伙伴的所有A或B文件。
我的方法是解決這個問題的正確方法還是完全瘋了？我已經使用Python 1.5周了，所以對包和教程的任何建議都會受到歡迎。

解決方法我用：

source='/tmp' 

import os 
import re` 
import datetime as dt 

pat=re.compile(r'^Data_(A|B)_(\d{4}-\d{2}-\d{2}_\d+-\d+-\d+-\d+)') 
def test_list(l): 
return (len(l)==2 and {t[1] for t in l}!=set('AB')) 

def round_time(dto, round_to=60): 
    seconds = (dto - dto.min).seconds 
    rounding = (seconds-round_to/2) // round_to * round_to 
    return dto + dt.timedelta(0,rounding-seconds,-dto.microsecond)    

fnames={} 
for fn in os.listdir(source): 
    p=os.path.join(source, fn) 
    if os.path.isfile(p): 
     m=pat.search(fn) 
     if m: 
      d=round_time(dt.datetime.strptime(m.group(2), '%Y-%m-%d_%H-%M-%S-%f'), round_to=60) 
      fnames.setdefault(str(d), []).append((p, m.group(1))) 

for k, v in [(k, v) for k, v in fnames.items() if not test_list(v)]: 
    for fn in v: 
     print fn[0]

來源

2015-09-06 Peter S

我個人的選擇是使用正則表達式，可以提取文件名的有意義的部分。將這些數據饋送到正確的數據結構後，可以輕鬆實現差異化。例如，關鍵字是日期和關聯值的字典是A/B或任何值的列表或集合。 – pasztorpisti

所以我會爲A和B文件創建一個詞典？聽起來不錯，我會看字典系統 –

我知道使用正則表達式可能聽起來有點矯枉過正，但在這種情況下，我更喜歡做精確匹配而不是分割「某些東西」。通過這種方式，處理多個不同的文件名模式變得更加容易，並且檢測未處理的模式非常簡單。使用命名的正則表達式組處理模式的有用部分的代碼更具可讀性，您可以通過名稱而不是索引來查詢組。 – pasztorpisti

鑑於這五個文件名：

$ ls Data* 
Data_A_2015-07-29_16-25-55-313.txt 
Data_B_2015-07-29_16-25-54-200.txt 
Data_A_2015-07-29_16-26-56-314.txt 
Data_B_2015-07-29_16-26-54-201.txt 
Data_A_2015-07-29_16-27-54-201.txt

您可以使用正則表達式來定位的關鍵信息：Demo

由於我們正在處理時間戳，所以時間應該四捨五入到最近的關注時間標記。

這裏是將圓向上或向下到最接近的分功能：

import datetime as dt 

def round_time(dto, round_to=60): 
    seconds = (dto - dto.min).seconds 
    rounding = (seconds+round_to/2) // round_to * round_to 
    return dto + dt.timedelta(0,rounding-seconds,-dto.microsecond)

再加上循環儘管文件，可以組合成一個列表的字典的鍵是時間戳四捨五入到一分鐘。

（我懷疑你的文件都在同一目錄中，所以我這個展示與os.listdir而不是os.walk因爲os.walk通過多個目錄遞歸進入）

import os 
import re 
import datetime as dt 

pat=re.compile(r'^Data_(A|B)_(\d{4}-\d{2}-\d{2}_\d+-\d+-\d+-\d+)') 

fnames={} 
for fn in os.listdir(source): 
    p=os.path.join(source, fn) 
    if os.path.isfile(p): 
     m=pat.search(fn) 
     if m: 
      d=round_time(dt.datetime.strptime(m.group(2), '%Y-%m-%d_%H-%M-%S-%f'), round_to=60) 
      fnames.setdefault(str(d), []).append((p, m.group(1))) 

print fnames

打印：

{'2015-07-29 16:28:00': [('/tmp/Data_A_2015-07-29_16-27-54-201.txt', 'A')], '2015-07-29 16:27:00': [('/tmp/Data_A_2015-07-29_16-26-56-314.txt', 'A'), ('/tmp/Data_B_2015-07-29_16-26-54-201.txt', 'B')], '2015-07-29 16:26:00': [('/tmp/Data_A_2015-07-29_16-25-55-313.txt', 'A'), ('/tmp/Data_B_2015-07-29_16-25-54-200.txt', 'B')]}

的五個文件有一個文件不具有對。您可以篩選所有不是長度爲2或沒有A和B匹配的文件列表。

首先，定義一個測試功能，會在測試：

def test_list(l): 
    return (len(l)==2 and {t[1] for t in l}==set('AB'))

然後用列表解析找到所有從字典不符合你條件的條目：

>>> [(k, v) for k, v in fnames.items() if not test_list(v)] 
[('2015-07-29 16:28:00', [('/tmp/Data_A_2015-07-29_16-27-54-201.txt', 'A')])]

然後對這些文件採取行動：

for k, v in [(k, v) for k, v in fnames.items() if not test_list(v)]: 
    for fn in v: 
     print fn # could be os.remove(fn)

相同的基本方法適用於os.walk但您可能有多個目錄中的文件。

下面是完整列表：

source='/tmp' 

import os 
import re 
import datetime as dt 

pat=re.compile(r'^Data_(A|B)_(\d{4}-\d{2}-\d{2}_\d+-\d+-\d+-\d+)') 

def test_list(l): 
    return (len(l)==2 and {t[1] for t in l}==set('AB')) 

def round_time(dto, round_to=60): 
    seconds = (dto - dto.min).seconds 
    rounding = (seconds+round_to/2) // round_to * round_to 
    return dto + dt.timedelta(0,rounding-seconds,-dto.microsecond)    

fnames={} 
for fn in os.listdir(source): 
    p=os.path.join(source, fn) 
    if os.path.isfile(p): 
     m=pat.search(fn) 
     if m: 
      d=round_time(dt.datetime.strptime(m.group(2), '%Y-%m-%d_%H-%M-%S-%f'), round_to=60) 
      fnames.setdefault(str(d), []).append((p, m.group(1))) 

for k, v in [(k, v) for k, v in fnames.items() if not test_list(v)]: 
    for fn in v: 
     print fn[0] # This is the file that does NOT have a pair -- delete?

來源

2015-09-06 22:54:09 dawg

哇謝謝，看起來很有希望！然而，最後的部分對我來說不是很清楚。我必須在哪裏放？ '[（k，v）for k，v in fnames.items（）if test_list（v）]' –

圓文件存在問題：'Data_A_2015-07-29_16-25-55-313.txt'會收到16:26 - >但它是一個文件的時間戳16-25，或者我看到這個woring –

'{'2015-07-29_16-26'：['/ tmp/Data_A_2015-07-29_16 -25-55-313.txt'，'/ tmp/Data_B_2015-07-29_16-25-54-200.txt']，' –

我想後了部分答案指出瞭如何分配分割的結果名稱，並給他們有意義的名字。這通常會使問題更容易解決。

def match_files(files): 
    result = {} 

    for filename in files: 
     data, letter, date, time_txt = filename.split('_') 
     time, ext = time_txt.split('.') 
     hour, min, sec, ns = time.split('-') 

     key = date + '_' + hour + '-' + min 

     # Initialize dictionary if it doesn't already exist. 
     if not result.has_key(key): 
      result[key] = {} 

     result[key][letter] = filename 


    return result 



filename1 = 'Data_A_2015-07-29_16-25-55-313.txt' 
filename2 = 'Data_B_2015-07-29_16-25-55-313.txt' 

file_list = [filename1, filename2] 


match_files(file_list)

輸出：

In [135]: match_files(file_list) 
Out[135]: 
{'2015-07-29_16-25': {'A': 'Data_A_2015-07-29_16-25-55-313.txt', 
    'B': 'Data_B_2015-07-29_16-25-55-313.txt'}}

來源

2015-09-06 21:19:25 CivFan

好，真正使更多的意義:-)謝謝 –

我想簡單地忽略了第二和毫秒部分是不是一個好主意。可能會發生這樣的情況，其中一個文件的格式爲01：01：59：999，而另一個文件的格式爲01：02：00：000。差別只有一毫秒，但它也會影響分鐘部分。更好的解決方案是解析日期時間並計算它們之間的時間間隔。但讓我們來看看這個簡單的愚蠢版本。我認爲這樣的事情可以完成這項工作。它滿足你的需要，如果它不正是你需要的：

import os 
import re 

pattern = re.compile(r'^Data_(?P<filetype>A|B)_(?P<datetime>\d\d\d\d\-\d\d\-\d\d_\d\d\-\d\d)\-\d\d\-\d\d\d\.txt$') 

def diff_dir(dir, files): 
    a_set, b_set = {}, {} 
    sets = {'A': a_set, 'B': b_set} 
    for file in files: 
     path = os.path.join(dir, file) 
     match = pattern.match(file) 
     if match: 
      sets[match.group('filetype')][match.group('datetime')] = path 
     else: 
      print("Filename doesn't match our pattern: " + path) 
    a_datetime_set, b_datetime_set = set(a_set.keys()), set(b_set.keys()) 
    a_only_datetimes = a_datetime_set - b_datetime_set 
    b_only_datetimes = b_datetime_set - a_datetime_set 
    for dt in a_only_datetimes: 
     print(a_set[dt]) 
    for dt in b_only_datetimes: 
     print(b_set[dt]) 

def diff_dir_recursively(rootdir): 
    for dir, subdirs, files in os.walk(rootdir): 
     diff_dir(dir, files) 

if __name__ == '__main__': 
    # use your root directory here 
    rootdir = os.path.join(os.path.dirname(__file__), 'dir') 
    diff_dir_recursively(rootdir)

來源

2015-09-06 21:23:48 pasztorpisti

謝謝，但據I'm通知測量是在同一分鐘所有loged，所以我不會鬆動文件，因爲一個01：01：59：999另一個有01：02：00：000的場景...我希望:-)感謝您的代碼我會試試 –

的Python：文件名比較在文件夾中

回答

相關問題