2016-11-18 20 views
-3
<strong>Description</strong>         This is some test description 1<strong>Areas</strong> 

我會想(強)說明(/強)之間的文本(強)的東西(這種變化,並非總是領域)(/強)我如何解析這個HTML用正則表達式來得到我需要什麼

我一直在嘗試用這個正則表達式'描述(。+)'但沒有結果。

*我使用Python的正則表達式庫什麼是合適的表情讓「這是一些測試說明1」

+0

發佈完整的html代碼.. –

回答

0

這是not recommended to parse HTML using regex

如果它的東西很簡單,不完全解析你可以嘗試,但我會建議使用一些HTML/XML解析器。 您可以改用Python HTML parser,或使用一些庫,如BeautifulSoup

無論如何,如果你想嘗試提取標籤之間的數據,你需要更清楚。 我不確定你想要什麼是始終在標籤和文本之間獲取文本。如果是這樣,你應該能夠做一些事情,如:

import re 
matches = re.search(r'</strong>(.+)<strong>', '<strong>Description</strong>         This is some test description 1<strong>Areas</strong>') 
matches.group(1) # '         This is some test description 1' 

如果你想爲說明開放和任何其他文本關閉,你可以說使用正則表達式的更具體的東西:

<strong>Description<\/strong>(.+)<strong>(.+)<\/strong> 

但我要再次告訴你看看一些實際的HTML/XML解析器。

+0

我正在使用它,但對於此特定位,我需要正則表達式。其餘的我沒有任何問題,但事情是。整個頁面是超級非結構化的,對於這個特定的東西,我發現正則表達式很有用。 –

+0

好的,請檢查我的答案,如果它適合你。 – danielfranca

相關問題