我有一大堆HTML文檔,裏面有數據表,我正在編寫一個腳本,它可以處理HTML文件,隔離標籤及其內容,然後連接所有這些表中的行放入一個大型數據表中。然後循環遍歷新大表的行和列。使用PHP連接HTML表格DOMDocument
經過一番研究,我開始嘗試PHP的DOMDocument類來解析HTML,但我只是想知道,這是做這種事情的最好方法嗎?
這是我這麼遠......
$dom = new DOMDocument();
$dom->preserveWhiteSpace = FALSE;
@$dom->loadHTMLFile('exrate.html');
$tables = $dom->getElementsByTagName('table');
如何砍掉比表及其內容等一切嗎? 然後我真的想刪除第一個表,因爲它是一個目錄。然後循環遍歷所有錶行並將它們構建到一個大表中。
任何人有任何提示如何做到這一點? 我一直在深入研究php.net上的DOMDocument文檔,但是我發現語法非常令人困惑!
乾杯,B
編輯:這是我想加入http://thenetzone.co.uk/exrates/exrate.html
那麼,DOMDocument是可怕的。嘗試phpQuery或QueryPath或其他[解析HTML的最佳方法](http://stackoverflow.com/questions/3577641/best-methods-to-parse-html)。但我的第二個建議是使用一個更簡單的正則表達式類從html表中提取行。 – mario 2011-02-04 21:27:16