我現在處於以下情況。我試圖將一個凌亂的HTML代碼轉換爲一個漂亮而整齊的xml結構。用PHP刮掉凌亂的html網站
刮下網站的部分HTML代碼:
<p><span class='one'>week number</span></p>
<p><span class='two'>day of the week</span></p>
<table class='spreadsheet'>
table data
</table>
<p><span class='two'>another day of the week</span></p>
<table class='spreadsheet'>
table data
</table>
<p><span class='one'>another week number</span></p>
ETC
現在我想用PHP創建以下XML結構:
<week number='week number'>
<day name='day of the week'>
<data id='table data'>table data</data>
</day>
<day name='another day of the week'>
<data id='table data'>table data</data>
</day>
</week>
<week number='another week number'>
ETC
</week>
一直試圖簡單的HTML DOM方法,但不知道如何獲得下一個兄弟姐妹,並檢查它是一週中的新的一天,新的表格數據還是新的一週等。
我當然也對其他解決方案開放。
謝謝。
乾杯, Dandoen
[Scrape web page contents](http://stackoverflow.com/questions/584826/scrape-web-page-contents) – 2016-02-25 16:56:58