我正在嘗試使用HTMLagilitypack
從網頁中提取所有內容。從網頁中提取內容
foreach (HtmlTextNode node in doc.DocumentNode.SelectNodes("//text()"))
{
sb.AppendLine(node.Text);
}
當我嘗試使用上述代碼解析google.com時,我收到了很多javascript。我想要的只是提取網頁中的內容,如h
或p
標籤。就像回答這個問題一樣,在這個頁面上回答評論,並刪除其他所有內容。
我對XPath真的很陌生,不知道該往哪裏前進。所以任何幫助,將不勝感激。
好了,所以這個問題我是有那個'script'的的innerText和'風格'也被退回。所以對於刪除腳本和樣式是必要的所有功勞都歸功於這個人[鏈接](http://stackoverflow.com/a/2785108/1762761) –
我不熟悉HTMLagilitypack但聽起來很奇怪,我得到一個來自** text()**節點的**文本**。您可以嘗試** SelectNodes(「// * [text()]」)**以獲得具有文本節點的所有節點。 – jvverde