我一直在閱讀Matlab中的HTML文件readfile
,有興趣使用regexp
從中提取數據。該函數將數據作爲字符串返回,這保留了HTML文件的「結構」,例如換行符。例如,如果您嘗試使用以下內容對文件執行文件讀取,則它將返回一個具有相同結構的字符串。在Matlab中讀取HTML文件爲'連續'文本
<!DOCTYPE html PUBLIC "-//IETF//DTD HTML 2.0//EN">
<HTML>
<HEAD>
<TITLE>
A Small Hello
</TITLE>
</HEAD>
</HTML>
我正在尋找將返回一串連續的功能等......
<!DOCTYPE html PUBLIC "-//IETF//DTD HTML 2.0//EN"> <HTML> <HEAD> <TITLE> A Small Hello </TITLE> </HEAD> <BODY> <H1>Hi</H1> <P>This is very minimal "hello world" HTML document.</P> </BODY> </HTML>
這種格式將有助於我regexp
努力。
非常感謝, 鮑勃中號
[不使用正則表達式解析HTML](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454),請改用適當的HTML解析器。 – You