2010-10-05 61 views
0

當使用wget創建我的網站的靜態副本但是有幾個元素需要通過JavaScript拉入的外部資源。腳本的模式應該相當穩定,並且不會動態創建URL。我需要提取的網址如下所示:使用grep捕獲JavaScript鏈接

onclick="return ns.homepage.load({e:this, src:'https://mysub.mydomain.tld/somedir/content/123456789.html'})" 

我想將這些url的列表輸出到本地文件,以便我也可以將它們wget。

回答

0

使用perl + HTML :: TreeBuilder來拉你的端代碼,然後解析它。

你可能需要做一些正則表達式的工作,即這個模塊可能只會讓你咕咕'onclick()'事件 - 但它不應該太糟糕了,以獲得其餘的。

+0

這絕對讓我走在正確的軌道上。謝謝 – David 2010-12-21 17:42:15