html-parser

0熱度

2回答

首先，我獲取網頁的html，然後刪除通常出現在頁面左側或右側（不在頁面主體中）的href鏈接。 Href鏈接正在被刪除，但其標籤未被刪除。例子： <a href='http://test.blogspot.com/2012/11/myblog.html'>London</a> 鏈接已經被刪除，但不是的標籤，即 '倫敦'。我如何刪除html源代碼中的完整行？我使用下面的代碼是： $string

1熱度

1回答

如何使用Java

得到一個div的座標和維度有我的工作，這將網頁的HTML代碼轉換爲使用Java特定的JS庫中的項目，這樣的div塊可以有不同的動態行爲。要將html div轉換爲JS對象，我必須知道它的座標以及寬度和長度。我變成了幾個Java的HTML解析器庫：http://java-source.net/open-source/html-parsers 但他們都沒有這個功能除了眼鏡蛇http://lob

0熱度

1回答

在HTMLparser中使用通配符（或正則表達式）HasAttributeFilter參數

我使用org.htmlparser。我如何通過類掩碼接收節點列表？在例如： <span class="selection-link normal [email protected]">....</span> <span class="selection normal [email protected]">....</span> ，我希望收到具有「正常」作爲類中的所有標籤。不幸的是新Ha

2熱度

2回答

在php中解析HTML表格

我有一個數據庫表，它包含以下一列數據格式。 <table cellspacing="1" cellpadding="0" border="0" width="395"> <tbody> <tr> <td valign="top" width="135"> <p>Calories (kcal)<br>Energy (kj)<br>Fats<br>C

2熱度

1回答

使用html子串加速CsQuery選擇器

我想解析一些複雜/繁重的HTML頁面。我最近閱讀了關於CsQuery的內容並檢查了性能比較CsQuery Vs Html Agility Pack and Fizzler。根據這些測試，由於創建索引，CsQuery在創建DOM時變得更慢。假設我想選擇一個重html頁面的特定元素（沒有id），並且我知道它的祖先的ID，我將它用作上下文元素。如果我將這個沉重的html加載到DOM中，它會很慢，因此我的

2熱度

1回答

從HTML頁面

我工作的一個腳本動態提取數據使用這個自定義類提取一些字符串/數據從HTML文件（Nagios的狀態頁面，在這種情況下）： ## tagLister.py from sgmllib import SGMLParser class TAGLister(SGMLParser): def reset(self): SGMLParser.reset(self) se

-1熱度

1回答

在哪些情況下，元素將在HTML解析期間附加到DOM的Head元素？

顯然，<head></head>對內的內容/標籤將被附加到Head元素。有沒有在解析<body></body>的過程中，有些元素會附加到Head元素而不是Body元素？

-1熱度

1回答

不定值HTML :: TokeParser

我試圖找到標籤與perl腳本一個HTML。 use WWW::Mechanize::Firefox; use Crypt::SSLeay; use HTML::TokeParser; $ENV{PERL_LWP_SSL_VERIFY_HOSTNAME}=0; my $mech = WWW::Mechanize::Firefox->new; $mech->get_local('salid

0熱度

1回答

替換Java中IMG標籤的src屬性

我有一個HTML文檔，我需要更新IMG標籤的text和src屬性。我在Java工作。我想替換HTML中的以下字符串：DataName，DataText和DataIcon。 <body> <h1 align="center">DataName</h1> <div class="tabber"> <div class="tabbertab"> <h2>Info</h2>

0熱度

1回答

的javaネHTML，javax.xml.xpath的

一些幫助，這請： org.cyberneko.html.parsers.DOMParser dp = new DOMParser(); dp.parse(new InputSource(new StringReader("<!DOCTYPE html><html><body><div></div></body></html>"))); Document d = dp.getDo