我有一個包含HTML類似的字符串:查找字符串所有出現包含HTML
s <- "...<span class=\"pull-right\">170 cm</span>...
<span class=\"pull-right\">29</span>...
<span class=\"pull-right\">06/24/1987</span>..."
其中...
意味着在它們之間有其它的HTML標籤。我想提取>
和</span>
之間的信息可以是
- 只有數字
- 數字和字符(大寫或小寫或兩者)的形式的
- 日期
mm/dd/yyyy
我想出了像這樣的正則表達式:
">[0-9/]*[a-z ]*[A-Z]*</span>"
這是正確的嗎?我如何提取感興趣的值?也就是說,給定s
:
170 cm
29
06/24/1987
你爲什麼不使用XML工具來提取XML(HTML)標記的數據? – hrbrmstr
你有什麼研究w/r/t的HTML刮,然後呢?這感覺很像「爲我免費寫這段代碼」。 – hrbrmstr
@ 989看一下BeautifulSoup4的更高層次的方法。它也與'請求'很好。 –