用MATLAB忽略一些字符串

我想提取一些HTML標記中包含的文本。例如：用MATLAB忽略一些字符串

<html><body>this is a warning message. wrongs values</body></html>

結果應該通過忽略所有HTML標記來獲取消息。

有沒有人有任何建議？

來源

2012-06-07 lola

@Iola：這個問題是非常糟糕的措辭，如此糟糕，我甚至不能猜測你意思是。請編輯它，也許給一些示例輸入和輸出，向我們展示您迄今爲止編寫的代碼。 –

什麼是應答器/ balize？ – Junuxx

@Junuxx他是指標記符號。 HTML標記爲HTML標記法語（http://fr.wikipedia.org/wiki/Langage_de_balisage） –

您可以strip HTML tags使用正則表達式：

str = '<html><body>this is a warning message. wrongs values</body></html>'; 
str2 = regexprep(str, '<[^>]*>', '')

來源

2012-06-07 21:37:49 Amro

Amro，請你指點我一些關於如何使用matlab創建正則表達式的文檔？ – lola

@lola：在上面的表達式中，我們查找字符「<」，後面跟零個或多個出現的「*」，除了右括號'[^>]'，然後是實際右括號'>'。結果是我們匹配'<....>'與其中的任何內容，並簡單地將其替換爲空字符串以將其刪除。網上有很多[資源]（http://www.mathworks.com/help/techdoc/matlab_prog/f0-42649.html），你可以用[this]（http://regexpal.com/?flags= g＆regex =％3C [^％3E] *％3E＆input =％3Chtml％3E％3Cbody％3Ethis％20is％20a％20warning％20message。％20wrongs％20values％3C％2Fbody％3E％3C％2Fhtml％3E％0A）tool – Amro

感謝Amro的解釋，我試過這個工具，但我不知道如何使用它？ – lola

你想是這樣的：

a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>')

來源

2012-06-07 14:59:24 carlosdc

用MATLAB忽略一些字符串

回答

相關問題