htmlcleaner

    7熱度

    3回答

    我想查看從HTMLCleaner獲得的清理過的HTML。 我看到在TagNode上有一個名爲serialize的方法,但不知道如何使用它。 有沒有人有任何示例代碼? 由於 Nayn

    1熱度

    1回答

    如果我有以下的HTML頁面 <div> <p> Hello world! </p> <p> <a href="example.com"> Hello and Hello again this is an example</a></p> </div> 我想例如「你好」的特定單詞並將其更改爲「歡迎」,無論他們是在文件 你有什麼建議嗎?無論使用哪種類型的解析器,我都會很樂意得到答案

    0熱度

    2回答

    背景:我正在編寫一個Java程序來瀏覽HTML文件,並將非<script>或<style>標籤中的所有內容替換爲Lorem Ipsum 。我原本是用一個正則表達式去除一個>和一個<之間的一切,這實際上工作得很好(我知道是褻瀆神靈),但我試圖把它變成其他人可能會覺得有用的工具,所以我不敢威脅通過嘗試在HTML上使用正則表達式,宇宙的神聖性。 我想使用HtmlCleaner,一個吸引我的Java庫,因

    0熱度

    1回答

    我用HTMLCleaner挖掘數據.... 這裏是它如何工作的: HtmlCleaner cleaner = new HtmlCleaner(); final String siteUrl = "http://www.apple.com/"; TagNode node = cleaner.clean(new URL(siteUrl)); TagNode[] aTag

    2熱度

    1回答

    當我試圖解析網站,如Google或Apple與HtmlCleaner一切順利。 但是當我試圖解析一箇中文網站時,文本看起來像這個「???」。 是什麼導致了這個問題,我該如何解決它?

    0熱度

    1回答

    嗨,我的第一篇文章,我寫這篇文章,因爲我經歷了google知道關於htmlcleaner的每一個例子...我不能讓我的項目運行;(我試着做一個Android應用程序獲取和顯示來自Flash富媒體網頁的數據,其想法是隻獲取最重要的數據,以便用戶不浪費時間,處理金錢,試圖在他們的智能手機上撼動這些網頁......這是一個國家特定的網頁......因此國家pecific應用。在我需要解析的頁面有這部分

    0熱度

    1回答

    我使用htmlcleaner來解析HTML文件。這裏是一個html文件的例子。 .......<div class="name"><a href="http://example.com">Name</a></div>;...... 我得到使用該結構的字Name在我的代碼 HtmlCleaner cleaner = new HtmlCleaner(); CleanerPropert

    2熱度

    1回答

    我有一個示例XML(Android平臺),我想知道獲取文本節點的節點值的最簡單和最有效的方法。 <div id="myid"> <img src="..." width="1" height="2" alt="Text" /> <p><strong>Unwanted text</strong>WANTED TEXT</p> </div> 我可以使用XPath 2.0輕鬆獲

    7熱度

    2回答

    我是新來的Java,我想成爲網頁抓取和分析數據 真的好是否有相關的網頁抓取,這將有助於我理解怎麼API,如htmcleaner任何網站, web-harvest,htmlparser的工作? 我仍然不夠精通Java查看他們的Javadocs並瞭解他們的所有方法是如何工作的,並且無法在Web上找到幫助我的Java代碼示例(教程)。

    1熱度

    2回答

    這是我在Groovy中編寫的用於從網址中獲取頁面標題的代碼。不過,有些網站我得到了「永久移動」,我認爲這是因爲301重定向。如何避免這種情況,讓HttpURLConnection類要遵循正確的URL,並得到正確的頁面標題 比如這個網站,我得到了「感動永久」,而不是正確的頁面標題 http://www.nytimes.com/2011/08/14/arts/music/jay-z-and-kanye