html-parser

    4熱度

    1回答

    我需要用一個簡單的表單解析一個簡單的HTML頁面。對StackOverflow類似問題的答案建議使用各種非標準Java庫之一,如TagSoup,JSoup,HTMLParser等等。 然而,在網上搜索發現,有通過這個類存在於Java SE的一些標準功能:http://docs.oracle.com/javase/7/docs/api/javax/swing/text/html/parser/Par

    0熱度

    2回答

    htmlparser.Parser, 之間我的html代碼段(見下文),我需要得到的 內容的 有一堆這些容器在我的文件中有unqiue id的div。 我可以得到div和他們的內部html就好了。我不 如何獲得H3標籤 這段代碼的代碼適用於div的,但不是H3之間的什麼: 如果發現與正確的ID的H3,我只是無法弄清楚如何 獲取innerHTML或標籤之間的內容。 感謝您的幫助 parser = n

    1熱度

    3回答

    我需要登錄到網站,解析HTML頁面並提取特定HTML標記之間的值。 我能夠在不需要登錄數據的頁面上成功完成此操作。我正在使用HTML :: Parser類。 LWP :: UserAgent提供了cookie_jar方法,通過從文件加載cookie來設置cookie。不過,我想在腳本本身中對cookie值進行編碼。那可能嗎?我在網上找不到任何工作示例。 這裏是我的代碼: 請原諒失蹤「我」在一些地方

    0熱度

    2回答

    我試圖讓這個http://htmlparser.sourceforge.net/代碼在eclipse中運行。 這裏的說明很簡單:「要使用庫,在編譯和運行時,需要將htmllexer.jar或htmlparser.jar添加到類路徑中。」 我已經將htmllexer.jar和htmlparser.jar添加到我的構建路徑中,並且所有編譯都很好。但在運行時,eclipse似乎無法找到這些jar文件。我

    0熱度

    2回答

    現在我使用Python編寫的網絡爬蟲,但有時它拋出HTMLParserError: junk characters in start tag: u'\u201dTPL_password_1\u201d\r\n\t\t', at line 21285, column 6 它說的錯誤是在線路21285發現,確實這意味着錯誤發現在21285行的HTML源代碼中?如果不是,我怎麼知道什麼是當前生成錯誤的H

    17熱度

    3回答

    我有一個在jsoup,看起來像這樣 Document doc = Jsoup.connect("http://en.wikipedia.org/").get(); 製成的文件如何轉換是doc成字符串。

    0熱度

    1回答

    我想解析一個網頁,但是當我想要在頁面中獲得一段文字時。當我調用Jsoup.parse()和Jsoup.connect()。get()方法時,Jsoup給我一個錯誤的Document。 這是一個網頁和我的代碼。文檔var有一個錯誤的DOM。 Document doc1 = Jsoup.parse("<p class=\"texto\"><p>El concurso fotográfic

    1熱度

    1回答

    我想使用HPPLE解析器,但我得到這些錯誤!任何人都可以幫助我爲什麼NA​​SData不能有錯誤?

    2熱度

    2回答

    下面的代碼解析HTML,當&符號出現在數據中時,麻煩就會分裂。 from HTMLParser import HTMLParser data = '<HTML><meta http-equiv="Pragma" content="no-cache"></head>'\ '<body>107,1,236,1000,70,498,NameA NameB & NameC - ActionA Act

    2熱度

    3回答

    我使用HttpClient訪問一個particualr網站,我得到的響應是HTML格式。我應該使用解析器的HTML解析器或方法,並從響應中獲得我想要的內容。 注意:我使用HttpClient和Java一起使用