我試圖創建一個正則表達式來提取電話,的StreetAddress,從HTML網頁頁面值(9440717256,H.No。62年3月11日,RTC殖民地..)在python中。這三個領域都是可選我想這正則表達式,但輸出是不一致的可選字正則表達式
telephone\S+>(.+)</em>.*(?:streetAddress\S+(.+)</span>)?.*(?:pages\S+>(.+)</a></span>)?
樣本串
<em phone="**telephone**">9440717256</em></div></div></li><li class="row"><i class="icon-sm icon-address"></i><div class="profile-details"><strong>Address</strong><div class="profi`enter code here`le-child"><address itemprop="address" itemscope="" itemtype="http://schema.org/PostalAddress" class="data-item"><span itemprop="**streetAddress**">H.No. 3-11-62, RTC Colony</span>, <span>Vastu Colony, </span><span class="text-black" itemprop="addressLocality"><a href="/hyderabad/lal-bahadur-nagar/allcategory.aspx" title="**Pages**">Lal Bahadur Nagar</a></span>
誰能幫助我建立正則表達式嗎?
請不要這樣做! [可怕的事情](http://blog.codinghorror.com/parsing-html-the-cthulhu-way/)將會發生。 –
你想要一個HTML解析器,然後潛入正確的領域。 – AlG
@Tichodrama我已經閱讀了整篇文章,並且實際上只要您小心,就可以使用正則表達式來進行html解析。 – Shashank