Python正則表達式查找語句

我是一個業餘程序員，也是本網站的新成員。我已經搜索了這個問題，但沒有在互聯網或本網站的其他任何地方找到它。Python正則表達式查找語句

我試圖抓住開放和接近段落html標記之間的所有單詞（<p> & </p>）。我的findall語句適用於特定在線文章所有段落中的所有單詞，除了單引號或雙引號之外。完全有可能有更好的方法來做我想做的事情，或者可以很容易地調整這個陳述以包含帶引號的段落。任何建議將不勝感激！

的findall聲明：

aText = findall("<p>[A-Za-z0-9<>=\"\:/\.\-,\+\?#@'<>;%&\$\*\^\(\)\[\]\{\}\|\\!_`~ ]+</p>",text)

來源

2013-07-07 user2557391

步驟1）在你喜歡的搜索引擎「美麗的湯」的搜索。第2步）按照其中一個清晰的示例從HTML元素中提取文本。沒有第3步，它實際上是一個相當優雅的圖書館，只是爲了這個目的:) –

>>> t = "<p>there isn't much here</p>" 
>>> re.findall(r'<p>(.+?)</p>',t) 
["there isn't much here"]

例與"的嵌入式：

>>> t = r"<p>there isn't much \"to go by\" here</p>" 
>>> re.findall(r'<p>(.+?)</p>',t) 
['there isn\'t much \\"to go by\\" here']

通常+是貪婪預選賽中，通過在結尾處增加?我們使它非貪心，它試圖實現一個最小匹配。所以它會消耗部分字符串，直到</p>可以匹配。

來源

2013-07-07 03:21:48 HennyH

這將工作（我投票表示正確性），但您需要謹慎對待其限制。結束'

'標籤是可選的（儘管如果缺失無效）和'

'元素可以具有像'id'和'class'這樣的屬性來打破這個正則表達式。 –

謝謝！我會upvote，但它需要15個信譽點 – user2557391

@JasonSperske謝謝，我沒有想到這一點。 – HennyH

要與像美麗的湯的HTML解析引擎做到這一點：

from BeautifulSoup import BeautifulSoup 

html_doc= """ 
<p> 
paragraph 1 
</p> 

<p> 
paragraph 2 
</ap> 

<p> 
paragraph 3 
</p> 
""" 

soup = BeautifulSoup(html_doc) 

soup.findAll('p')

來源

2013-07-07 05:10:54

Python正則表達式查找語句

回答

相關問題