html-parser

4熱度

1回答

我需要用一個簡單的表單解析一個簡單的HTML頁面。對StackOverflow類似問題的答案建議使用各種非標準Java庫之一，如TagSoup，JSoup，HTMLParser等等。然而，在網上搜索發現，有通過這個類存在於Java SE的一些標準功能：http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/Par

0熱度

2回答

爪哇 - org.htmlparser.Parser，需要獲得最新的H3的

htmlparser.Parser，之間我的html代碼段（見下文），我需要得到的內容的有一堆這些容器在我的文件中有unqiue id的div。我可以得到div和他們的內部html就好了。我不如何獲得H3標籤這段代碼的代碼適用於div的，但不是H3之間的什麼：如果發現與正確的ID的H3，我只是無法弄清楚如何獲取innerHTML或標籤之間的內容。感謝您的幫助 parser = n

1熱度

3回答

在Perl中使用HTTP :: Cookie傳遞Cookie值

我需要登錄到網站，解析HTML頁面並提取特定HTML標記之間的值。我能夠在不需要登錄數據的頁面上成功完成此操作。我正在使用HTML :: Parser類。 LWP :: UserAgent提供了cookie_jar方法，通過從文件加載cookie來設置cookie。不過，我想在腳本本身中對cookie值進行編碼。那可能嗎？我在網上找不到任何工作示例。這裏是我的代碼：請原諒失蹤「我」在一些地方

0熱度

2回答

java.lang.NoClassDefFoundError：org/htmlparser/util/ParserException

我試圖讓這個http://htmlparser.sourceforge.net/代碼在eclipse中運行。這裏的說明很簡單：「要使用庫，在編譯和運行時，需要將htmllexer.jar或htmlparser.jar添加到類路徑中。」我已經將htmllexer.jar和htmlparser.jar添加到我的構建路徑中，並且所有編譯都很好。但在運行時，eclipse似乎無法找到這些jar文件。我

0熱度

2回答

如何找到在HTML錯誤線時HTMLParserError發生

現在我使用Python編寫的網絡爬蟲，但有時它拋出HTMLParserError： junk characters in start tag: u'\u201dTPL_password_1\u201d\r\n\t\t', at line 21285, column 6 它說的錯誤是在線路21285發現，確實這意味着錯誤發現在21285行的HTML源代碼中？如果不是，我怎麼知道什麼是當前生成錯誤的H

17熱度

3回答

如何轉換在Jsoup（在Java HTML解析器）做了一個文檔轉換爲字符串

我有一個在jsoup，看起來像這樣 Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 製成的文件如何轉換是doc成字符串。

0熱度

1回答

爲什麼JSoup解析錯了我的HTML代碼？

我想解析一個網頁，但是當我想要在頁面中獲得一段文字時。當我調用Jsoup.parse（）和Jsoup.connect（）。get（）方法時，Jsoup給我一個錯誤的Document。這是一個網頁和我的代碼。文檔var有一個錯誤的DOM。 Document doc1 = Jsoup.parse("<p class=\"texto\"><p>El concurso fotográfic

1熱度

1回答

使用HPPLE Html解析器的錯誤

我想使用HPPLE解析器，但我得到這些錯誤！任何人都可以幫助我爲什麼NASData不能有錯誤？

2熱度

2回答

帶逗號的分割字符串也會拆分＆符號

下面的代碼解析HTML，當＆符號出現在數據中時，麻煩就會分裂。 from HTMLParser import HTMLParser data = '<HTML><meta http-equiv="Pragma" content="no-cache"></head>'\ '<body>107,1,236,1000,70,498,NameA NameB & NameC - ActionA Act

2熱度

3回答

HTML解析器響應 - Java

我使用HttpClient訪問一個particualr網站，我得到的響應是HTML格式。我應該使用解析器的HTML解析器或方法，並從響應中獲得我想要的內容。注意：我使用HttpClient和Java一起使用