正則表達式在一個文件中搜索

-1

我有這個任務：我必須閱讀一個HTML文件，並匹配所有<a>標籤及其所有屬性並打印出來。例如：標籤：
<a href="https://www.facebook.com" alt="Facebook icon" title="Facebook" target="_blank"></a>正則表達式在一個文件中搜索

要打印：

href - https://www.facebook.com 
alt - Facebook icon 
title - Facebook 
target- _blank 
text – not found

我有正則表達式的基本知識，並從Java中的文件讀取零知識。有人能給我一些提示，建議和解釋如何有效地做到這一點？
爲<a>標籤的所有屬性和閉幕</a>匹配正則表達式的表達，在我看來，可能是：

"\<[aA]\w\>\w\<\/[aA]\>*"

來源

2015-04-18 Leo Zhekov

這是一門功課？ – Toto

你爲什麼不嘗試解析器？ –

你可能想看看這個問題及其最佳答案：http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags – benzonico

與其他人一樣說，不要與解析正則表達式的HTML文件。如果你打算，那麼你可以嘗試下面的\G基於錨的正則表達式。

String s = "<a href=\"https://www.facebook.com\" alt=\"Facebook icon\" title=\"Facebook\" target=\"_blank\"></a>"; 
Matcher m = Pattern.compile("(?:<a|(?<!^)\\G)\\s+(\\w+)=\"([^\"]*)\"") 
     .matcher(s); 
while (m.find()) { 
    System.out.println(m.group(1) + "\t-\t" + m.group(2)); 
}

輸出：

href - https://www.facebook.com 
alt  - Facebook icon 
title - Facebook 
target - _blank

DEMO

參考\G錨：

來源

2015-04-18 10:07:39

好的，這很好，謝謝！剩下的是如何從文件一行一行地讀取並打印所有的''標籤.. 這是'\ G 'anchor分割了它的屬性和值？然後用'm.group（1）'打印屬性，'m.group（2）'打印值？我的理解是否正確？ –

@LeoZhekov added一些參考文獻，從中你可以理解'\ G'錨點的用途。 –

正則表達式在一個文件中搜索

回答

相關問題