我正在開發WPF,C#和VS2010中的應用程序,我不知道如何繼續此操作...如何讀取HTML文檔並提取圖像名稱?
我感興趣的算法是獲取所有引用的.jpg和.bmp圖像一個html文件。我如何從HTML文件中提取正文?
謝謝
我正在開發WPF,C#和VS2010中的應用程序,我不知道如何繼續此操作...如何讀取HTML文檔並提取圖像名稱?
我感興趣的算法是獲取所有引用的.jpg和.bmp圖像一個html文件。我如何從HTML文件中提取正文?
謝謝
的HTML Agility Pack是用於從HTML文檔中提取元素一個非常堅實的圖書館。一個簡單的視圖就是將它看作是XPATH中的一個包裝器,它具有良好的API。
你可以用正則表達式來做到這一點。
http://msdn.microsoft.com/en-us/library/ms228595.aspx
以下模式應該工作:
(http?:\/\/.*\.(?:png|jpg|gif))