更新:我使用Jsoup來解析文本
解析一個網站時,我遇到了問題:當我得到HTML文本時,一些鏈接隨機空間損壞。例如:更改難以字符串與未知的子串
What a pretty flower! <a href="www.goo gle.com/...">here</a> and <a href="w ww.google.com...">here</a>
正如你可能會注意到,在空間中的位置完全是隨機的,但有一點是肯定的:它是一個href
標籤內。 當然,我可以使用replace(" ", "")
方法,但可能有兩個或多個鏈接。 我該如何解決這個問題?
在所有href值上使用replace(「」,「」)'有什麼問題?另外,爲什麼試圖修復返回垃圾網站的數據? –
也有正則表達式,你可以用它來識別你的鏈接,如果你只想使用'replace'就可以了。或[JSoup](http://jsoup.org/)(請參閱[此問題](http://stackoverflow.com/questions/9071568/parse-web-site-html-with-java)) – eebbesen
是的,我使用Jsoup解析,但改變substring不會改變初始字符串,對吧? – Groosha