2010-03-03 32 views
0

我有我的c#.net應用程序中的表格內容和其他信息的HTML文件。內置正則表達式類或解析器。如何從html文件中提取標籤之間的文本?

我想我應該用HTML或的解析器來解析表的內容僅用於一些columns.Then更換正則表達式在.NET的方法?

如果我使用解析器,那麼如何使用解析器?分析器會提取標籤之間的信息嗎?如果是,那麼如何使用?如果可能,請展示該示例,因爲我對解析器不熟悉。

如果我使用該方法替換方法正則表達式類的,然後怎麼傳的,我想提取信息的文件名?

編輯:我想從HTML文件中的表中提取信息。爲此,我如何使用html敏捷性解析器?我應該使用該解析器編寫什麼類型的代碼?

回答

4

您剛纔問了an almost identical question並將其刪除。這是我之前給出的答案:


嘗試HTML Agility Pack

下面是一個example

HtmlDocument doc = new HtmlDocument(); 
doc.Load("file.htm"); 
foreach(HtmlNode link in doc.DocumentElement.SelectNodes("//a[@href"]) 
{ 
    HtmlAttribute att = link["href"]; 
    att.Value = FixLink(att); 
} 
doc.Save("file.htm"); 

關於關於正則表達式的額外的問題:不使用正則表達式來解析HTML。這不是一個可靠的解決方案。上述圖書館可以做得更好。

+1

但是這段代碼給出錯誤... – Harikrishna 2010-03-03 10:26:26

+3

函數'FixLink'沒有被定義,所以這個不會被編譯。這只是代碼的一個例子 - 你不能將它複製並粘貼到你的項目中。另外,你還沒有告訴我們你需要做什麼,所以這段代碼片段不太可能是你所需要的。 – 2010-03-03 10:36:30

相關問題