</span>
<div class="clearB paddingT5px"></div>
<small>
10/12/2015 5:49:00 PM - Seeking Alpha
</small>
<div class="clearB paddingT10px"></div>
假設我有一個網站的源代碼,其中的一部分看起來像這樣。我試圖找到「小」和「/小」之間的界限。在整個網頁中有很多這樣的線條,籠罩在「小」和「/小」之間。我想提取所有介於「小」和「/小」之間的行。從網站提取特定行
我試圖用一個「正則表達式」功能,它看起來像這樣
regex = '<small>(.+?)</small>'
datestamp = re.compile(regex)
urls = re.findall(datestamp, htmltext)
此只返回一個空格。請告訴我這個。
你爲什麼試圖用正則表達式解析HTML?使用HTML解析器! – jonrsharpe
請嘗試(。+)。你的正則表達式是'懶'。 – Noxeus
BeautifulSoup select或find_all方法效率更高 – mmachine