html-parser

    0熱度

    2回答

    首先,我獲取網頁的html,然後刪除通常出現在頁面左側或右側(不在頁面主體中)的href鏈接。 Href鏈接正在被刪除,但其標籤未被刪除。 例子: <a href='http://test.blogspot.com/2012/11/myblog.html'>London</a> 鏈接已經被刪除,但不是的標籤,即 '倫敦'。我如何刪除html源代碼中的完整行?我使用下面的代碼是: $string

    1熱度

    1回答

    得到一個div的座標和維度 有 我的工作,這將網頁的HTML代碼轉換爲使用Java特定的JS庫中的項目,這樣的div塊可以有不同的動態行爲。 要將html div轉換爲JS對象,我必須知道它的座標以及寬度和長度。 我變成了幾個Java的HTML解析器庫:http://java-source.net/open-source/html-parsers 但他們都沒有這個功能除了眼鏡蛇http://lob

    0熱度

    1回答

    我使用org.htmlparser。我如何通過類掩碼接收節點列表? 在例如: <span class="selection-link normal [email protected]">....</span> <span class="selection normal [email protected]">....</span> ,我希望收到具有「正常」作爲類中的所有標籤。 不幸的是 新Ha

    2熱度

    2回答

    我有一個數據庫表,它包含以下一列數據格式。 <table cellspacing="1" cellpadding="0" border="0" width="395"> <tbody> <tr> <td valign="top" width="135"> <p>Calories (kcal)<br>Energy (kj)<br>Fats<br>C

    2熱度

    1回答

    我想解析一些複雜/繁重的HTML頁面。我最近閱讀了關於CsQuery的內容並檢查了性能比較CsQuery Vs Html Agility Pack and Fizzler。根據這些測試,由於創建索引,CsQuery在創建DOM時變得更慢。假設我想選擇一個重html頁面的特定元素(沒有id),並且我知道它的祖先的ID,我將它用作上下文元素。如果我將這個沉重的html加載到DOM中,它會很慢,因此我的

    2熱度

    1回答

    我工作的一個腳本動態提取數據使用這個自定義類提取一些字符串/數據從HTML文件(Nagios的狀態頁面,在這種情況下): ## tagLister.py from sgmllib import SGMLParser class TAGLister(SGMLParser): def reset(self): SGMLParser.reset(self) se

    -1熱度

    1回答

    顯然,<head></head>對內的內容/標籤將被附加到Head元素。 有沒有在解析<body></body>的過程中,有些元素會附加到Head元素而不是Body元素?

    -1熱度

    1回答

    我試圖找到標籤與perl腳本一個HTML。 use WWW::Mechanize::Firefox; use Crypt::SSLeay; use HTML::TokeParser; $ENV{PERL_LWP_SSL_VERIFY_HOSTNAME}=0; my $mech = WWW::Mechanize::Firefox->new; $mech->get_local('salid

    0熱度

    1回答

    我有一個HTML文檔,我需要更新IMG標籤的text和src屬性。我在Java工作。我想替換HTML中的以下字符串:DataName,DataText和DataIcon。 <body> <h1 align="center">DataName</h1> <div class="tabber"> <div class="tabbertab"> <h2>Info</h2>

    0熱度

    1回答

    一些幫助,這請: org.cyberneko.html.parsers.DOMParser dp = new DOMParser(); dp.parse(new InputSource(new StringReader("<!DOCTYPE html><html><body><div></div></body></html>"))); Document d = dp.getDo