我想提取一個html文件的文本內容生成一些工具。 因爲html格式不正確,我無法使用普通的sax或dom解析器。解析html報告文件
所以我試圖用HTMLParser的http://htmlparser.sourceforge.net/
現在,我怎麼能提取我所需要的節點?
我使用了下面的代碼,但它沒有讀取節點文本內容。它只是打印tds與它的attibute.How我可以獲取節點的身體?
td colspan="2"
td valign="top" class="titleText"
我想提取其體內有一個數字和百分比符號
String inputHTML = readFileAsString(filePath);
Parser parser = new Parser();
parser.setInputHTML(inputHTML);
parser.setEncoding("UTF-8");
NodeList nl = parser.parse(null);
NodeList tds = nl.extractAllNodesThatMatch(new TagNameFilter("td"),true);
for(int i= 0; i < tds.size(); i++) {
Node node = tds.elementAt(i);
System.out.println(node.getText());
}
DOM解析器可以方便地提取 – 2012-03-02 15:07:34
它給了異常,因爲HTML不是很好formeed.Some關閉標籤缺失 – user93796 2012-03-02 15:10:23
那不是一個問題,, DOM可以解析,如果標籤是不是也收,,如果不還welformed沒有問題的取數據 – 2012-03-02 17:21:52