2010-09-19 16 views
0

我正在尋找的正則表達式,將過濾掉:經常用於濾除JS表達+ iframe中

  • 的javascript:<script></script>和一切,這是在
  • 之間之間的JavaScript還包含:iframe和hostads .cn url

謝謝。 我打算在簡單的bash腳本中使用該regexp,該腳本將從目錄中的文件中刪除部分代碼。

回答

0

正則表達式不適合解析HTML。這很難實現,容易搞砸,而且通常效率或準確度都不高。考慮將每個文件解析爲HTML,然後明確搜索並刪除要過濾的元素。另外,要知道,如果出於安全原因進行過濾,惡意腳本和JavaScript仍然有可能通過這種類型的過濾器進行偷窺。