2016-03-10 179 views
0

我在html中有一個非常大的字符串。我想把它分成Java相等部分,從<span></span>在Java中將字符串拆分成相等部分

我使用正則表達式以下,但沒有得到正確的結果:

<span class='ocrx_word'(.*?)<\/span> 

任何人都可以指導我。謝謝!

字符串爲:

<span class='ocrx_word' id='word_1_1' title='bbox 577 190 656 222; x_wconf 72' lang='eng' dir='ltr'>ABC</span> <span class='ocrx_word' id='word_1_2' title='bbox 671 190 854 232; x_wconf 69' lang='eng' dir='ltr'>Company</span> <span class='ocrx_word' id='word_1_3' title='bbox 2011 190 2098 222; x_wconf 81' lang='eng' dir='ltr'>SHIP</span> <span class='ocrx_word' id='word_1_4' title='bbox 2110 190 2177 222; x_wconf 84' lang='eng' dir='ltr'>TO:</span> <span class='ocrx_word' id='word_1_5' title='bbox 2192 190 2261 222; x_wconf 69' lang='eng' dir='ltr'>XYZ</span> <span class='ocrx_word' id='word_1_6' title='bbox 2276 190 2461 232; x_wconf 70' lang='eng' dir='ltr'>Company</span> 
    </span> 
+0

我強烈建議使用Jsoup這樣的東西 – TheLostMind

+0

我認爲你的文本中缺少一個開口範圍標記。無論哪種方式你的正則表達式獲得6場比賽。將一個字符串分解爲相等部分是什麼意思? – Armando

+0

分成相等部分表示:結果如下: ABC公司

回答

0

變化的正則表達式是這樣的:

<span\s*(class='ocrx_word'(.*?))<\/span> 

結果:

enter image description here

+0

當我嘗試按照使用建議使用上述正則表達式時:。我沒有得到預期的結果。你能告訴我你使用了哪一種工具嗎? –

+0

@sumeetkumar Regex101.com – VVN

0

試試這個正則表達式

(<span class='ocrx_word'(.*?)<\/span>) 
+0

沒有得到預期的結果:我希望像這樣的結果來自字符串html ABC公司

+0

可能不清楚你真正想要什麼。我以爲你想分割HTML並分別獲得每個span標籤。這不是你需要的嗎? – dishan