以下是我需要關聯「標題」的html文檔片段 - 例如FILE_BYTES_WRITTEN - 在第一個成功的文本()條目中。支持XPath軸的Java Html Parser?
以下XPath工作在Python lxml的偉大:
/td[text()='FILE_BYTES_WRITTEN']/following-sibling::td
的文檔片段:
<td>HDFS_BYTES_READ</td>
<td align="right">4,825</td>
<td align="right">0</td>
<td align="right">4,825</td>
</tr>
<tr>
<td>FILE_BYTES_WRITTEN</td>
<td align="right">415,881</td>
<td align="right">48,133</td>
<td align="right">464,014</td>
</tr>
<tr>
<td>HDFS_BYTES_WRITTEN</td>
<td align="right">98,580,205</td>
<td align="right">2,010</td>
<td align="right">98,582,215</td>
</tr>
但是,當我嘗試這樣做在Java中,我有那麼成功。我不確定是否有任何可以支持它的java html解析器。我目前正在使用HtmlCleaner。