假設我有這樣的:Python:爲什麼Xpath看似只處理這棵樹中的第一個元素?
<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
<HTML LANG="ja">
<HEAD>
<META http-equiv="Content-Type" content="text/html; charset=Shift_JIS">
<META name="GENERATOR" content="snanail Version 2.18">
<TITLE>-www.example.org-</TITLE>
<STYLE type="text/css">
<!--
H1.TITLE {
font-size : 10 pt;
font-family : "Arial";
color : #FFFFFF;
}
-->
</STYLE>
</HEAD>
<BODY>
<CENTER>
<TABLE BORDER="0" CELLSPACING="1" CELLPADDING="6" ALIGN="CENTER">
<TR>
<TD WIDTH="100">
<TABLE ALIGN="CENTER" CELLPADDING="4" CELLSPACING="1">
<TR>
<TD HEIGHT="100" WIDTH= "68" ALIGN="CENTER" VALIGN="MIDDLE">
<A HREF="001.html" TARGET="_blank"><IMG SRC="001_thumb.png" WIDTH="56" HEIGHT="80" ALT="001_thumb.png" BORDER="0"></A>
</TD>
</TR>
<TR>
<TD HEIGHT="40" ALIGN="CENTER" VALIGN="MIDDLE">
<FONT SIZE="2" COLOR="#FFFFFF">001.jpg</FONT><BR>
<FONT SIZE="2" COLOR="#FFFFFF">300 x 300 (806 KB)</FONT><BR>
</TD>
</TR>
</TABLE>
</TD>
<TD WIDTH="100">
<TABLE ALIGN="CENTER" CELLPADDING="4" CELLSPACING="1">
<TR>
<TD HEIGHT="100" WIDTH= "68" ALIGN="CENTER" VALIGN="MIDDLE">
<A HREF="002.html" TARGET="_blank"><IMG SRC="002_thumb.png" WIDTH="56" HEIGHT="80" ALT="002_thumb.png" BORDER="0"></A>
</TD>
</TR>
<TR>
<TD HEIGHT="40" ALIGN="CENTER" VALIGN="MIDDLE">
<FONT SIZE="2" COLOR="#FFFFFF">002.jpg</FONT><BR>
<FONT SIZE="2" COLOR="#FFFFFF">300 x 300 (627 KB)</FONT><BR>
</TD>
</TR>
</TABLE>
</TD>
</TR>
</TABLE>
</CENTER>
</HTML>
而且我想找到頁面中所有的網址,並做到:
tree = lxml.html.parse('example.html')
links = tree.xpath('//a/@href')
但我只得到了第一個(001.html)。這是爲什麼?我手動嘗試使用getroot()
後遍歷樹,似乎只有第一個表的第一個URL是可見的。我不明白。
編輯:我跟我張貼的例子再次測試,它實際工作,和一些測試後,就好像我移開磁頭,它的工作原理...也許有東西在裏面更是打破瞭解析器?我不知道。我想解決這將是搜索文件並刪除<head>
和</head>
之間的任何東西的最佳方式?由於解析不能按預期工作,所以我無法解析它。所以我把這個頭添加到了這個例子中。
的XPath實際上並不需要爲了工作,它有效(甚至是合格的)XML輸入只需要XDM數據模型的一個實例,並且HTML解析器當然可以提供該實例。但是,當然,如果你通過XML解析器放置HTML,你很可能會遇到麻煩。 –