使用beautifullsoup和python從網站/文件中提取.js文件

我試圖從使用beautifulsoup的網站獲取javascript「.js」文件。這是我使用的是在該作品，但錯過了一些文件使用beautifullsoup和python從網站/文件中提取.js文件

jss = soup.findAll(name = 'script', attrs = { 'src': re.compile('\.js') })

例如js文件的時刻代碼：

src=http://krebsonsecurity.com/wp-content/plugins/comment-rating-pro/ck-karma.js?ver=3.3.2

然後它錯過。

任何人都知道能夠提取js文件的最佳實現。

乾杯

2012-05-09 Eternity

你有使用不同的正則表達式嘗試？ –

我嘗試了一些我在網上找到的例子，但他們沒有工作，要麼包括不是.js文件的鏈接，要麼在一些鏈接上丟失。 – Eternity

嗯。我測試了上面的js鏈接，「\ .js」對我來說工作正常。你確定這是問題嗎？ –

卸下什麼src的數值是極限（超越「有一個src」）：

re.compile('\.+')

2012-05-09 05:54:45 Quentin

這實際上解決了它。 Cheers Mate ....但它也可能包含任何其他腳本，不能想到任何：p也許我應該檢查src值是否包含.js文件，如link.find（「。js」）= = 1 – Eternity

一些網站，假設亞馬遜在腳本中包含了.js文件ex：「

相關問題

回答