2012-06-07 70 views
0

我想提取一些HTML標記中包含的文本。例如:用MATLAB忽略一些字符串

<html><body>this is a warning message. wrongs values</body></html> 

結果應該通過忽略所有HTML標記來獲取消息。

有沒有人有任何建議?

+2

@Iola:這個問題是非常糟糕的措辭,如此糟糕,我甚至不能猜測你意思是。請編輯它,也許給一些示例輸入和輸出,向我們展示您迄今爲止編寫的代碼。 –

+0

什麼是應答器/ balize? – Junuxx

+0

@Junuxx他是指標記符號。 HTML標記爲HTML標記法語(http://fr.wikipedia.org/wiki/Langage_de_balisage) –

回答

1

您可以strip HTML tags使用正則表達式:

str = '<html><body>this is a warning message. wrongs values</body></html>'; 
str2 = regexprep(str, '<[^>]*>', '') 
+0

Amro,請你指點我一些關於如何使用matlab創建正則表達式的文檔? – lola

+0

@lola:在上面的表達式中,我們查找字符「<」,後面跟零個或多個出現的「*」,除了右括號'[^>]',然後是實際右括號'>'。結果是我們匹配'<....>'與其中的任何內容,並簡單地將其替換爲空字符串以將其刪除。網上有很多[資源](http://www.mathworks.com/help/techdoc/matlab_prog/f0-42649.html),你可以用[this](http://regexpal.com/?flags= g&regex =%3C [^%3E] *%3E&input =%3Chtml%3E%3Cbody%3Ethis%20is%20a%20warning%20message。%20wrongs%20values%3C%2Fbody%3E%3C%2Fhtml%3E%0A)tool – Amro

+0

感謝Amro的解釋,我試過這個工具,但我不知道如何使用它? – lola

1

你想是這樣的:

a = sscanf('<html><body>this is a warning message. wrongs values</body></html>','<html><body>%[a-zA-Z., ]</body></html>')