2010-05-04 137 views
0

我在c#中有這樣的代碼來從網頁中拉鍊接,並希望使它更智能,因爲我希望能夠在排除中添加小增加鏈接基於2個標準。c#和regEx在html頁面上拉鍊接href部分鏈接

首先我要排除的如指向PDF文件或PPT文件頁面發現某些文件擴展......

未來我希望能夠排除在URL這樣的事情的第一部分鏈接FTP和images.google ...或maps.google ....及電郵地址...

這是一個需要幫助,我當前的代碼:

MatchCollection m1 = Regex.Matches(file, @"(?i)(<A[^>]*href\s*=\s*['""](?!mailto|[^'""]*\.(?:pdf|doc|ppt))[^>]*>.*?</A>)", RegexOptions.Singleline); 

回答