2008-12-03 47 views
0

從HTML LINK標記中提取RSS/ATOM URL的最佳方法是什麼?我知道正則表達式不是這樣做的最好方法,所以我想知道我有什麼替代方案。當然,將HTML加載到字符串中後使用.Contains也是不理想的。任何人都有這樣的體面戰略?從HTML LINK標記中提取RSS/ATOM URL

回答

0

使用XPath。

1. Convert an HTML into an XHTML with Tidy 
2. With the XHTML, use XPath to search for the link 
    /html/head/link[@type='application/rss+xml']