2013-12-12 135 views
2

我有一個HTML文件,需要把它和訪問讀一些值:如何閱讀和解析html文件?

myHtml = 'toto.html'; 
readFile = fileread(myHtml); 

現在來解析HTML文件,你知道,如果它是可能的HTML轉換成XML,然後使用XPath?

+1

我會使用基於Java的HTML解析器,您可以直接從Matlab命令行運行java代碼。 http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers – Daniel

+0

你是指html文件上的XPATH?要做到這一點,我應該閱讀該文件與xmlread這是不可能的... – lola

+0

忘記我以前的評論,使用丹尼爾的建議 – MZimmerman6

回答

1

我不會推薦嘗試將HTML轉換爲XML。他們是不同的格式,你很可能會被燒傷。 HTML解析器存在,所以我們可以直接使用它們。

此外,爲了完整性,不要試圖用正則表達式解析HTML。有關於在Matlab中解析HTML的堆棧溢出問題,其中的答案建議正則表達式。做無辜的小貓一個忙,並調出來。

不幸的是,它看起來不像Matlab有一個HTML解析器作爲它的庫的一部分。

幸運的是,您可以在Matlab中輕鬆利用Java代碼!
因此,Java HTML解析器是公平的遊戲。看着jsoup或jtidy。撥打this question

其實,看看這個問題,加上Comparison of HTML parsers維基百科文章(謝謝@Daniel R!),它看起來像HTMLCleaner或Jtidy可能會將HTML清理爲XML。再次,我不會打擾,並直接解析HTML。

+0

爲什麼說XPath很好,即使HTML不是XML的子集? –

+0

僅僅因爲Xpath完全是正確的工具......如果我們正在處理一個XML文件 –

+0

你是自相矛盾的。但是不要緊。 –