解析不均勻，但CSV上下的文本文件

我試圖解析以下文件（從我的本地銀行交易出口）：解析不均勻，但CSV上下的文本文件

Clnr Kontonr  Konto    Valuta Bokföringsdatum Transaktionsdatum Referens       Kontohändelse     Belopp 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   Hyresgästför      Autogiro      -15,00 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   SPOTIFY SPOTIFY      Kortköp/uttag     -19,00 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   +46123456789      Swish mottagen     80,00 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   PRIS NYCKELKUND      Debiteringsavgift    -49,00 
12345 1234567890 vardagskonto   SEK  13-09-27   13-09-27   12345678       direktbetalning    -301,00 
12345 1234567890 vardagskonto   SEK  13-09-27   13-09-27   Unionen        Bg-bet. via internet   -125,00 
12345 1234567890 vardagskonto   SEK  13-09-26   13-09-26   123456789Överföring     -1 000,00

但我似乎無法建立一個適當的正則表達式它。我們的目標是提取第5,6,7和9列（如果所有這些都可以被提取出來，這當然是一種獎勵），但第7列是非常複雜的一個，因爲文件不是CSV，第7列可以包含多個詞。第8列是不可預測的，但我想我在上面的例子中找到了大多數相關的可能性。

關於如何成功解析此文件的任何提示？顯然我的正則表達式是不夠的。 :-(

如果這有什麼差別，我寧願它是否能在Python甚至POSIX（的grep/sed的/等）來解決或

來源

2013-10-06 monotux

由於文件似乎具有固定的列寬度，您應該能夠通過將每行字符串與每列的起始位置和結束位置切片，從列中獲取各個值。 –

爲什麼不爲每條線獲得固定寬度的子字符串？就像'line [48:57]'獲得第四列。 – Jerry

你有沒有嘗試在'\ t'上分割它？ 'import csv;打開（'foo.txt'）爲f：reader = csv.reader（f，delimiter ='\ t'）; rows = list（reader）;打印（行）;' –

只是爲了它的緣故，這是你如何解析這個格式「自動地」：

import re 

# find out spaces' positions common to all rows 
spaces = sorted(set.intersection(*[ 
    set(m.end() for m in re.finditer(ur'\s', line)) 
    for line in data 
])) 

# split by these positions 
for line in data: 
    row = [] 
    p = 0 
    for s in spaces: 
     row.append(line[p:s]) 
     p = s 
    row.append(line[p:]) 
    row = filter(len, map(unicode.strip, row)) 
    print ' | '.join(row) # or whatever you want...

爲您的數據：

data = u""" 
Clnr Kontonr  Konto    Valuta Bokföringsdatum Transaktionsdatum Referens       Kontohändelse     Belopp 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   Hyresgästför      Autogiro      -15,00 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   SPOTIFY SPOTIFY      Kortköp/uttag     -19,00 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   +46123456789      Swish mottagen     80,00 
12345 1234567890 vardagskonto   SEK  13-09-30   13-09-30   PRIS NYCKELKUND      Debiteringsavgift    -49,00 
12345 1234567890 vardagskonto   SEK  13-09-27   13-09-27   12345678       direktbetalning    -301,00 
12345 1234567890 vardagskonto   SEK  13-09-27   13-09-27   Unionen        Bg-bet. via internet   -125,00 
12345 1234567890 vardagskonto   SEK  13-09-26   13-09-26   123456789Överföring     -1 000,00 
""".strip().splitlines()

此打印：

Clnr | Kontonr | Konto | Valuta | Bokföringsdatum | Transaktionsdatum | Referens | Kontohändelse | Belopp 
12345 | 1234567890 | vardagskonto | SEK | 13-09-30 | 13-09-30 | Hyresgästför | Autogiro | -15,00 
12345 | 1234567890 | vardagskonto | SEK | 13-09-30 | 13-09-30 | SPOTIFY SPOTIFY | Kortköp/uttag | -19,00 
12345 | 1234567890 | vardagskonto | SEK | 13-09-30 | 13-09-30 | +46123456789 | Swish mottagen | 80,00 
12345 | 1234567890 | vardagskonto | SEK | 13-09-30 | 13-09-30 | PRIS NYCKELKUND | Debiteringsavgift | -49,00 
12345 | 1234567890 | vardagskonto | SEK | 13-09-27 | 13-09-27 | 12345678 | direktbetalning | -301,00 
12345 | 1234567890 | vardagskonto | SEK | 13-09-27 | 13-09-27 | Unionen | Bg-bet. via internet | -125,00 
12345 | 1234567890 | vardagskonto | SEK | 13-09-26 | 13-09-26 | 123456789| Överföring | -1 000,00

來源

2013-10-06 11:48:50 georg

我希望我能理解您的解決方案的第一點，但我真的很喜歡您的解決方案適用於任意間隔輸入。不過，我最終使用了更簡單的方法。 – monotux

-1

爲什麼不這個表達式：

(.*?)( +|\r\n|\n|$)

似乎所有列由2位

來源

2013-10-06 11:19:06 Darka

分隔您可以使用re.split分隔這些值，例如：

import re 

raw_data = open("test.csv").readlines() 
header = raw_data[0] 
data = raw_data[1:] 

for line in data: 
     values = re.split("\s{2,}", line.strip()) # splits by two or more spaces 
     print list(values) # show as a list

來源

2013-10-06 11:25:37 Salem

這就是我最終使用的，謝謝！ thg435提出的解決方案更好，但我完全理解。 – monotux

解析不均勻，但CSV上下的文本文件

回答

相關問題