2010-01-10 59 views
2

我試圖在Adobe空氣中加載和解析html。主要目的是提取標題,元標記和鏈接。我一直在嘗試HTMLLoader,但我得到各種錯誤,主要是JavaScript未捕獲的異常。在adobe空氣中解析html

我也嘗試直接加載html內容(使用URLLoader)並將文本推送到HTMLLoader(使用loadString(...)),但得到了相同的錯誤。最後的手段是嘗試和加載到XML文本,然後使用E4X查詢或xpath,沒有運氣,導致HTML格式不正確。

我的問題是:

  1. 簡單和可靠的(空氣/動作腳本)DOM組件那裏(我不需要在頁面中顯示和無頭模式都行)?
  2. 是否有任何圖書館轉換(糟糕的)html到良好形成的XML,所以我可以使用XPath/E4X
  3. 任何其他建議如何做到這一點?

THX

回答

1

動作腳本應該是JavaScript的一個超集,幸運的是,有...

Pure JavaScript/ActionScript HTML Parser

通過大師的Javascript和jQuery創始人John創建Resig :-)

一種方法是通過HTMLtoXML運行HTML()然後使用E4X,如你所願:)

1

據我所知:

  1. 沒有:-(
  2. 沒有:-(
  3. 我想抓住標題和meta標籤的最簡單方法是寫一些正則表達式。您可以將頁面的HTML代碼加載到一個字符串中,然後像下面這樣讀出您需要的內容:

var str:String =「」; //把HTML代碼在這裏

var pattern:RegExp = /<title>(.+)<\/title>/i; 

trace(pattern.exec(str));