我一直在思考如何實現一個邏輯來解析這段代碼,我有。我目前正在使用jsoup,Java和Android。使用Java和jsoup解析特定的HTML代碼
基本結構顯示(一個我正在尋找):
22:48 爲url1:隨機消息
22:44 URL2:更隨機的消息!
的代碼(存儲在Element對象,這是由jsoup提供):
22:48
<strong> <a href="www.randomUrl.com">url1</a>:</strong> Random message.22:44
<strong> <a href="www.randomUrl.com">url2</a>:</strong> Even more random message!22.42
<strong> <a href="www.randomUrl.com">url3</a>:</strong> This is a dumb message9922.20
<strong> <a href="www.randomUrl.com">url4</a>:</strong> This is a dumb message3
我多麼希望它被 「清理」:
22:48 <strong> <a href="www.randomUrl.com">url1</a>:</strong> Random message.
22:44 <strong> <a href="www.randomUrl.com">url2</a>:</strong> Even more random message!
22.42 <strong> <a href="www.randomUrl.com">url3</a>:</strong> This is a dumb message99
22.20 <strong> <a href="www.randomUrl.com">url4</a>:</strong> This is a dumb message3
我當然不記住一行節省時間,url和消息到一些專用的數組列表,然後刪除html。但我期待着聽到你將如何處理這種解析。由於問題是隨機消息可以是任何類型的字符串,這意味着它可以包含一個時間(22:33)。所以我不能通過基於時間的正則表達式來分隔行。
我在想,如果正確的做法是通過同時使用時間和強元素來解析它,因爲強元素似乎總是開始一個新行。
謝謝!