如何閱讀和解析html文件？

我有一個HTML文件，需要把它和訪問讀一些值：如何閱讀和解析html文件？

myHtml = 'toto.html'; 
readFile = fileread(myHtml);

現在來解析HTML文件，你知道，如果它是可能的HTML轉換成XML，然後使用XPath？

2013-12-12 lola

我會使用基於Java的HTML解析器，您可以直接從Matlab命令行運行java代碼。 http://en.wikipedia.org/wiki/Comparison_of_HTML_parsers – Daniel

你是指html文件上的XPATH？要做到這一點，我應該閱讀該文件與xmlread這是不可能的... – lola

忘記我以前的評論，使用丹尼爾的建議 – MZimmerman6

我不會推薦嘗試將HTML轉換爲XML。他們是不同的格式，你很可能會被燒傷。 HTML解析器存在，所以我們可以直接使用它們。

此外，爲了完整性，不要試圖用正則表達式解析HTML。有關於在Matlab中解析HTML的堆棧溢出問題，其中的答案建議正則表達式。做無辜的小貓一個忙，並調出來。

不幸的是，它看起來不像Matlab有一個HTML解析器作爲它的庫的一部分。

幸運的是，您可以在Matlab中輕鬆利用Java代碼！
因此，Java HTML解析器是公平的遊戲。看着jsoup或jtidy。撥打this question。

其實，看看這個問題，加上Comparison of HTML parsers維基百科文章（謝謝@Daniel R！），它看起來像HTMLCleaner或Jtidy可能會將HTML清理爲XML。再次，我不會打擾，並直接解析HTML。

2013-12-12 19:28:22

爲什麼說XPath很好，即使HTML不是XML的子集？ –

僅僅因爲Xpath完全是正確的工具......如果我們正在處理一個XML文件 –

你是自相矛盾的。但是不要緊。 –

回答