我刮網站,該網站具有真正的窮人HTML結構和我得到的文本這樣只更換出現連的應用re.sub() - Python的正則表達式
例子:
Creator:
\r\r
My Name
\r\r
Date created:
\r\r
123123
<br><br>
Title:
\r\r
Title here
\r\r
我想它看起來像
Creator: My Name
\r\r
Date created:123123
Title:Title here
\r\r
我有這樣的正則表達式_str = re.sub('\r+','',_str)
但我知道它錯了,因爲它取代所有\r
有沒有什麼辦法可以迭代re.sub()
?或者你有任何想法,我怎樣才能實現我的目標?
嘗試_STR =應用re.sub('([^ \ R] +)\ r \ r([^ \ r] + \ r \ r)','\\ 1 \\ 2',_str) – Skycc
檢查相關文章http://stackoverflow.com/a/1732454/131057 –