2013-08-23 129 views
0

我使用一個簡單的JavaScript腳本在批處理文件中從BBC iPlayer下載音頻和視頻 - 廣播和電視節目。使用Javascript刮臉HTML

該腳本的一部分從BBC的xml頁面中提取數據。

我現在想嘗試從html頁面提取數據。任何人都可以指向我的JavaScript方法從普通的.htm或.html頁面提取數據嗎?

我急於讓事情變得簡單,通過一個javascript例程,我可以將其包含在我的網站的html頁面中,所以我只對javascript解決方案感興趣。謝謝。

編輯,8月24日 -

BBC的HTML頁面不給Javascript腳本,這些腳本成功地解析他們的XML頁面響應。

我用一個簡單的JavaScript來詢問XML,在此基礎上 -

功能的loadXML(){ xmlDoc中=新的ActiveXObject( 「Microsoft.XMLDOM」); xmlDoc.async = false; xmlDoc.onreadystatechange = readXML; xmlDoc.load(url); }

+0

一些(但幾乎沒有)_HTML_將被_XML_解析器成功解析 –

+0

hmmmmm ....盜版? – totallyuneekname

+0

我不是爲了盜版網站而提出這個問題。我想要做的是從BBC的收音機和電視節目表中提取一些有限的節目細節,與錄製偶爾的無線電廣播有關。例如,我希望能夠在文本文件中提取並存儲節目的先前廣播的日期,它們總是html元素,例如,從這個網頁:http://www.bbc.co.uk/programmes/b007nf83/broadcasts – Ed999

回答

0

你的問題有點含糊。我認爲可能有兩種方法可以完成這項工作: 1.應用RegExp匹配模式 2.將html導入到dom模擬器中,然後走樹找到數據(我假設您使用nodejs)

+0

有沒有一個例子,在網上任何地方,我可以看看,以瞭解如何在任何情況下實現這一點? – Ed999