我有這個小代碼,它給了我AttributeError:'NoneType'對象沒有屬性'組'。Python正則表達式 - 解析HTML
import sys
import re
#def extract_names(filename):
f = open('name.html', 'r')
text = f.read()
match = re.search (r'<hgroup><h1>(\w+)</h1>', text)
second = re.search (r'<li class="hover">Employees: <b>(\d+,\d+)</b></li>', text)
outf = open('details.txt', 'a')
outf.write(match)
outf.close()
我的意圖是讀一個.HTML文件尋找<h1>
標籤值和員工的數量和它們添加到文件中。但由於某種原因,我似乎無法做到。 我們非常感謝您的幫助。
@larsmans:無數的人也包括[this one](http://stackoverflow.com/questions/4231382/regular-expression-pattern-not-matching-anywhere-in-string/4234491#4234491)這實際上演示瞭如何用正則表達式解析HTML。與此相比,海倫的任務在這裏是微不足道的。所以不那麼觸發 - 高興。 –
很遺憾,你不能使用'vi'來編輯HTML文件,innit? – tchrist
我認爲像美麗肥皂的Scrapy這樣的高級圖書館會比正則表達式更適合您的任務。 – mariosangiorgio