解析文本「| - 」和「| - 或}」

是否有任何內置Python原型，以實現以下任何人都可以提出如何應做到以下幾點..解析文本「| - 」和「| - 或}」

我想？得到內[ ]和分裂基於\s+爲線與|塊|-和|-或}

{| border=&quot;1&quot; cellspacing=&quot;1&quot; cellpadding=&quot;1&quot; 
    |- 
    Ignore block 
    |- 
    | [http://data/code SEC.12.0] 
    | [file://data\\loc \\DATA\LOC]&lt;br&gt; 
    | 
    [file://\\ftp\\location \\ftp\\location]&amp;nbsp;&lt;br&gt; &lt;br&gt; & 

    |- 
    | [http://data/code2 SEC.13.0] 
    | [file://data\\loc2 \\DATA\LOC2]&lt;br&gt;] 
    | 
    [file://\\ftp\\location2 \\ftp\\location2]&amp;nbsp;&lt;br&gt; &lt;br&gt; & 
    | 
    }

預期產出之間開始的所有數據： -

SEC.12.0 
\\DATA\LOC 
\\ftp\\location 


SEC.13.0 
\\DATA\LOC2 
\\ftp\\location2

來源

2013-03-24 user2125827

那如何HTML逃逸中有多少是真實的 - 這是哪裏的數據來自哪裏？看起來像破損wikimarkup – Eric 2013-03-24 21:54:20

@Eric - 文字來自維基，但代碼看起來完全一樣 – user2125827 2013-03-24 21:56:46

我發現很難相信維基包含'"'字符。你在這裏的網頁上弄錯了錯誤的觀點。 – Eric 2013-03-24 22:09:21

例如：

import re 

data = [] 

for block in re.findall(r'(?s)\|-(.+?)(?=\|-|})', text): 
    r = [x.split()[-1] for x in re.findall(r'\[(.+?)\]', block)] 
    if r: 
     data.append(r) 

print data

結果：

[['SEC.12.0', '\\DATA\\LOC', '\\ftp\\location'], ['SEC.13.0', '\\DATA\\LOC2', '\\ftp\\location2']]

來源

2013-03-24 23:21:52 georg

謝謝..那麼工作 – user2125827 2013-03-25 03:24:57

解析文本「| - 」和「| - 或}」

回答

相關問題