我在解析以下HTML問題:HtmlAgilityPack:無法解析底線(忽略端線)
<tr>
<td><p><b>
<span>Company:</span></b>
<span>Test</span>
</p></td>
</tr>
<tr>
<td><p><b>
<span>Company:</span></b>
<span>Test 2</span>
</p></td>
</tr>
我的代碼是:
HtmlDocument doc = new HtmlDocument();
doc.Load(@"email.txt");
Console.WriteLine(doc1.DocumentNode.InnerText);
我有以下的輸出:Company:TestCompany:Test 2
,但我想要
Company: Test
Company: Test 2
因此,問題在於換行符沒有被解析。
P.S:doc.OptionWriteEmptyNodes = true;
沒什麼區別。
更新:我的意思是,無論html在那裏,它都不會解析結束行。即使有<br />
標籤或等
還有就是在你的HTML沒有斷行。即使在您的瀏覽器中,您也不會看到它,兩個標籤都會並排顯示。你的實際需求是什麼? 'Document.InnerText'只是並排返回所有文本控件的值。如果你不想,你必須選擇你想要的東西(f.e。所有span),然後使用'的string.join(Environment.NewLine,allInnerText)'。 –
@TimSchmelter,我想用的innerText一個字符串,如果我從瀏覽器中複製它。 因此,如果有換行符,它們應該在的innerText太(\ n)的。 –