首先嚐試學習如何在Visual Studio和C#中使用HTML。我正在使用html agility pack庫。做解析。從財務報表中刮掉HTML
從這個page我試圖在此頁面中拔出從不同的地方的信息,並將其保存爲正確格式的字符串
這裏是我當前的代碼(摘自:shriek)
HtmlNode tdNode = document.DocumentNode.DescendantNodes().FirstOrDefault(n => n.Name == "td"
&& n.InnerText.Trim() == "Net Income");
if (tdNode != null)
{
HtmlNode trNode = tdNode.ParentNode;
foreach (HtmlNode node in trNode.DescendantNodes().Where(n => n.NodeType == HtmlNodeType.Element))
{
Console.WriteLine(node.InnerText.Trim());
//Output:
//Net Income
//265.00
//298.00
//601.00
//672.00
//666.00
}
}
它正常工作,但我想獲得更多的信息,我不確定如何正確地搜索HTML。首先,我還希望能夠從年度數據中選擇這些數字,而不僅僅是季度數據(頁面頂部的查看選項)。
我也想獲得的日期數字的每一列,既季度和年度(以下簡稱「由於......」在每列的頂部)
也爲未來的項目,並提供谷歌這是一個API嗎?
偉大的解決方案,您展現了極好的XPath使用。謝謝 – lucas