2010-09-27 69 views
6

我需要使用C#從HTML文件中提取文本。 我想使用HTMLAgilityPack,但我看到一些解析錯誤(標籤未關閉)。 我使用這兩個選項:C#HTMLAgilityPack HTML到文本 - 解析錯誤

 htmlDoc.OptionFixNestedTags = true; 
     htmlDoc.OptionAutoCloseOnEnd = true; 

是否有任何「修復」式的選項。我不關心錯誤,我只是想要內容或關閉。

回答

4

也許這是解決辦法,但一旦我不得不從HTML中提取文本我用正則表達式:

result = Regex.Replace(result, @"<(.|\n)*?>", String.Empty); 
result = Regex.Replace(result, @"^\n*", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = Regex.Replace(result, @"\n*$", String.Empty, RegexOptions.Singleline | RegexOptions.IgnoreCase); 
result = result.Replace("\n", " "); 
+2

謝謝!我正在尋找更多HTMLAgilityPack解決方案...... – tvr 2010-09-29 07:34:18