我試圖從各種博客中獲取一些HTML,並注意到不同的提供者以不同的方式使用相同的標記。獲取變化的HTML標記的最佳方法
例如,下面是使用META NAME發電機標記不同的兩大供應商:
- 博客:
<meta content='blogger' name='generator'/>
(第一內容,名字後面,是的,單引號!) - 的WordPress:
<meta name="generator" content="WordPress.com" />
(名稱第一,內容稍後)
有沒有辦法提取所有情況下的內容值(單/雙引號,行中的第一個/最後一個)?
P.S.儘管我使用的是Java,但如果它在普通表達式的正常表達式的地方,答案可能會幫助更多的人。