htmlcleaner

7熱度

3回答

我想查看從HTMLCleaner獲得的清理過的HTML。我看到在TagNode上有一個名爲serialize的方法，但不知道如何使用它。有沒有人有任何示例代碼？由於 Nayn

1熱度

1回答

如果我有以下的HTML頁面 <div> <p> Hello world! </p> <p> <a href="example.com"> Hello and Hello again this is an example</a></p> </div> 我想例如「你好」的特定單詞並將其更改爲「歡迎」，無論他們是在文件你有什麼建議嗎？無論使用哪種類型的解析器，我都會很樂意得到答案

0熱度

2回答

使用Java中的兄弟標籤解析HTML內容（或）在兩個<open>標籤之間查找內容

背景：我正在編寫一個Java程序來瀏覽HTML文件，並將非<script>或<style>標籤中的所有內容替換爲Lorem Ipsum 。我原本是用一個正則表達式去除一個>和一個<之間的一切，這實際上工作得很好（我知道是褻瀆神靈），但我試圖把它變成其他人可能會覺得有用的工具，所以我不敢威脅通過嘗試在HTML上使用正則表達式，宇宙的神聖性。我想使用HtmlCleaner，一個吸引我的Java庫，因

0熱度

1回答

如何使用HtmlCleaner查找不在<a>標記內的節點元素？

我用HTMLCleaner挖掘數據.... 這裏是它如何工作的： HtmlCleaner cleaner = new HtmlCleaner(); final String siteUrl = "http://www.apple.com/"; TagNode node = cleaner.clean(new URL(siteUrl)); TagNode[] aTag

2熱度

1回答

HtmlCleaner返回「???」當解析非英文網站

當我試圖解析網站，如Google或Apple與HtmlCleaner一切順利。但是當我試圖解析一箇中文網站時，文本看起來像這個「???」。是什麼導致了這個問題，我該如何解決它？

0熱度

1回答

Android的HTML解析應用程序htmlcleaner

嗨，我的第一篇文章，我寫這篇文章，因爲我經歷了google知道關於htmlcleaner的每一個例子...我不能讓我的項目運行;（我試着做一個Android應用程序獲取和顯示來自Flash富媒體網頁的數據，其想法是隻獲取最重要的數據，以便用戶不浪費時間，處理金錢，試圖在他們的智能手機上撼動這些網頁......這是一個國家特定的網頁......因此國家pecific應用。在我需要解析的頁面有這部分

0熱度

1回答

從html文件獲取鏈接

我使用htmlcleaner來解析HTML文件。這裏是一個html文件的例子。 .......<div class="name"><a href="http://example.com">Name</a></div>;...... 我得到使用該結構的字Name在我的代碼 HtmlCleaner cleaner = new HtmlCleaner(); CleanerPropert

2熱度

1回答

Android中用於具有兩個子文本節點的節點的Xpath表達式

我有一個示例XML（Android平臺），我想知道獲取文本節點的節點值的最簡單和最有效的方法。 <div id="myid"> <img src="..." width="1" height="2" alt="Text" /> <p><strong>Unwanted text</strong>WANTED TEXT</p> </div> 我可以使用XPath 2.0輕鬆獲

7熱度

2回答

網頁抓取，初學java

我是新來的Java，我想成爲網頁抓取和分析數據真的好是否有相關的網頁抓取，這將有助於我理解怎麼API，如htmcleaner任何網站， web-harvest，htmlparser的工作？我仍然不夠精通Java查看他們的Javadocs並瞭解他們的所有方法是如何工作的，並且無法在Web上找到幫助我的Java代碼示例（教程）。

1熱度

2回答

HttpUrlConnection獲取內容的標題並獲得「永久移動」

這是我在Groovy中編寫的用於從網址中獲取頁面標題的代碼。不過，有些網站我得到了「永久移動」，我認爲這是因爲301重定向。如何避免這種情況，讓HttpURLConnection類要遵循正確的URL，並得到正確的頁面標題比如這個網站，我得到了「感動永久」，而不是正確的頁面標題 http://www.nytimes.com/2011/08/14/arts/music/jay-z-and-kanye