如何使用HTML Agility Pack從HTML文件正文獲取文本的第一段。我正在構建一個DIGG風格的鏈接提交工具,並希望獲得標題和文本的第一段。標題很簡單,對於我如何從身體中獲得第一段文字有什麼建議?我想這可能在P或DIV內,具體取決於頁面。HTML Agility Pack - 獲取頁面摘要
2
A
回答
3
是你控制的這個html嗎?如果是這樣,你可以給P上的ID或類,並通過
//p[@id=\"YOUR ID\"] or //p[@class=\"YOUR CLASS\"]
編輯發現: 既然你不控件的HTML,也許下面將工作。它採用所有的HtmlTextNodes並嘗試查找大於指定閾值的文本分組。這並不完美,但可能會讓你朝着正確的方向前進。
String summary = FindSummary(page.DocumentNode);
private const int THRESHOLD = 50;
private String FindSummary(HtmlAgilityPack.HtmlNode node) {
foreach (HtmlAgilityPack.HtmlNode childNode in node.ChildNodes) {
if (childNode.GetType() == typeof(HtmlAgilityPack.HtmlTextNode)) {
if (childNode.InnerText.Length >= THRESHOLD) {
return childNode.InnerText;
}
}
String summary = FindSummary(childNode);
if (summary.Length >= THRESHOLD) {
return summary;
}
}
return String.Empty;
}
0
敏捷包使用xpath查詢html負載,您只需使用簡單的xpath語句。像...
HtmlDocument htmldoc = new HtmlDocument();
htmldoc.LoadHtml(content);
HtmlNodeCollection firstParagraph = htmldoc.DocumentNode.SelectNodes("//p[1]");
相關問題
- 1. 使用Html Agility Pack獲取html頁面上的所有divs id
- 2. Html Agility Pack Xpath
- 3. Html Agility Pack c#
- 4. Html Agility Pack Foreach Reverse
- 5. Html Agility Pack Dll
- 6. Html Agility Pack xpath IEnumerable
- 7. Html Agility Pack xPath問題
- 8. Html-Agility-Pack沒有載入全頁面的頁面?
- 9. Html Agility PacK vs Sharp Query?
- 10. Html Agility Pack空值從表
- 11. 使用Html Agility Pack從網頁獲取價值
- 12. Html Agility Pack - 從html文檔中獲取html片段
- 13. 無法使用Html Agility Pack獲得XPATH
- 14. 使用Html Agility Pack抓取H3的InnerText
- 15. 使用Html Agility Pack提取表格
- 16. Html Agility Pack鏈接和img src提取
- 17. Html Agility Pack DocumentNode.SelectNodes返回null
- 18. Mono for Android Html Agility Pack
- 19. HTML Agility Pack HtmlDocument顯示全部Html?
- 20. 使用html-agility-pack無法從HTML代碼獲取值
- 21. Html Agility Pack:查找註釋節點
- 22. Html Agility Pack對於Nodecollection返回Null
- 23. 如何獲取特定單元格的值C#Html-Agility-Pack
- 24. 使用HTML Agility Pack獲取元素的結尾?
- 25. 使用HTML Agility Pack在圖片旁邊獲取文字?
- 26. 如何使用Html Agility Pack獲取img/src或a/hrefs?
- 27. 如何從網站獲取數據登錄後(Html Agility pack)
- 28. Agility Pack XPath問題
- 29. Html Agility Pack返回無效的XPath
- 30. Html Agility Pack - 循環遍歷行和列
我不控制HTML,用戶可以提交他們喜歡的任何頁面,所以我不知道容器的ID或類將是什麼 – reach4thelasers 2009-11-23 17:24:01
謝謝!那就是我一直在尋找的! – reach4thelasers 2009-11-25 21:21:48