htmlcleaner

0熱度

1回答

使用HTMLCleaner解析時，所有「br」標籤都被忽略。我想知道我可以如何處理「br」標籤。下面是一個例子： <p>El tenista suizo <b>Roger Federer</b>, número dos del mundo.<br><br> "Quiero todavía seguir ganando títulos, por eso deseo mantenerme al t

0熱度

2回答

Python正則表達式去掉html沒有href屬性的標籤

我有一個已經用lxml的Cleaner清理過的字符串，所以所有的鏈接現在都以Content的形式出現。現在我想刪除所有沒有href屬性的鏈接，例如 <a rel="nofollow">Link to be removed</a> 應該成爲 Link to be removed 同爲： <a>Other link to be removed</a> Shoudl成爲： Other lin

0熱度

2回答

XPath表達式，兩個字符串在一個節點中

我下載了html表單，用htmlCleaner清理它。最初它看起來像這樣（現在它很好地形成，但我不知道簡單的方法如何表達，我希望，這是足夠了）： ... <form action="complete" method="POST" enctype="multipart/form-data"> Please fill in your username: <input type="text" n

0熱度

1回答

htmlcleaner用標籤解析

我嘗試提取頁面的某些部分。我使用解析器HtmlCleaner，並刪除所有標籤。是否有一些設置可以保存所有的html標籤？或者，也許是更好的方式來提取這部分代碼，使用別的東西？我的代碼： static final String XPATH_STATS = "//div[@class='text']/p/"; // config cleaner properties HtmlCleaner h

0熱度

1回答

在特定節點元素下獲取節點

我需要幫助解決我的問題，或者至少有一些建議。我使用XPATH使用HTMLcleaner解析HTML文檔。我有這樣的事情： <html> [code and other <h4> tags] <h4>Random name</h4> <a href="link" target="target"> Text I want to get </a> <a href="link2" targe

0熱度

1回答

使用HTMLCleaner解析文本問題 - 文本開頭的空格

我可以使用HTMLCleaner從網站獲取文本。問題是，當我將文本設置爲TextView時，它顯示了文本的開頭，並且上面有一個很大的空間。 screenshot http://i50.tinypic.com/of3gif.png 我試過android:gravity但什麼也沒有發生。請幫助。這裏是我的代碼： private class SiteParser extends AsyncTask<

0熱度

2回答

如何從一個網站的網址

我試圖讓一個網站的網址，乾淨的表示得到一個乾淨的XML表示，所以我可以把「HTML」內 org.w3c.dom.Document 能夠用xpath進行進一步的處理等等。我能得到什麼，當我試圖把HTML文檔裏面是： org.xml.sax.SAXParseException：Elementtyp 「鏈接」弄亂麻省理工學院的馬克entsprechenden ENDTAG 「」 beendet

1熱度

2回答

AsyncTask中的HTMLcleaner

我想讓HTML清理器解析來自網站的信息，然後使用Xpath來查找我正在查找的數據。我有一個單獨的AsyncTask類的HTMLcleaner的東西，該應用程序似乎在我的手機上工作。但是，當我按下按鈕什麼都沒有發生。這是我的主要活動類和我的AsyncTask類。 package ru.habrahabr.stackparser; import java.net.URL; import java

0熱度

2回答

HTMLcleaner堆棧跟蹤錯誤

我正在處理項目並遇到問題。我想使用html清理器解析html，然後使用xpath返回一個字符串。如果它發現一個錯誤（它做了），我讓它返回一個堆棧跟蹤。我真的不知道如何根據堆棧跟蹤來調試它。這是代碼。 package ru.habrahabr.stackparser; import java.net.URL; import java.util.ArrayList; import java.u

0熱度

2回答

簡單的HTML序列化程序的NullPointerException

我想解析從TagNode的HTML。問題是，有一個內部異常阻止它的工作。這裏是我的電話：當然 CleanerProperties props = new CleanerProperties(); SimpleHtmlSerializer serializer = new SimpleHtmlSerializer(props); changes.setHtmlForTimetable(ser