我想提取一些HTML標記中包含的文本。例如:用MATLAB忽略一些字符串
<html><body>this is a warning message. wrongs values</body></html>
結果應該通過忽略所有HTML標記來獲取消息。
有沒有人有任何建議?
我想提取一些HTML標記中包含的文本。例如:用MATLAB忽略一些字符串
<html><body>this is a warning message. wrongs values</body></html>
結果應該通過忽略所有HTML標記來獲取消息。
有沒有人有任何建議?
您可以strip HTML tags使用正則表達式:
str = '<html><body>this is a warning message. wrongs values</body></html>';
str2 = regexprep(str, '<[^>]*>', '')
Amro,請你指點我一些關於如何使用matlab創建正則表達式的文檔? – lola
@lola:在上面的表達式中,我們查找字符「<」,後面跟零個或多個出現的「*」,除了右括號'[^>]',然後是實際右括號'>'。結果是我們匹配'<....>'與其中的任何內容,並簡單地將其替換爲空字符串以將其刪除。網上有很多[資源](http://www.mathworks.com/help/techdoc/matlab_prog/f0-42649.html),你可以用[this](http://regexpal.com/?flags= g&regex =%3C [^%3E] *%3E&input =%3Chtml%3E%3Cbody%3Ethis%20is%20a%20warning%20message。%20wrongs%20values%3C%2Fbody%3E%3C%2Fhtml%3E%0A)tool – Amro
感謝Amro的解釋,我試過這個工具,但我不知道如何使用它? – lola
你想是這樣的:
a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>')
@Iola:這個問題是非常糟糕的措辭,如此糟糕,我甚至不能猜測你意思是。請編輯它,也許給一些示例輸入和輸出,向我們展示您迄今爲止編寫的代碼。 –
什麼是應答器/ balize? – Junuxx
@Junuxx他是指標記符號。 HTML標記爲HTML標記法語(http://fr.wikipedia.org/wiki/Langage_de_balisage) –