2012-05-09 57 views
0

我試圖從使用beautifulsoup的網站獲取javascript「.js」文件。這是我使用的是在該作品,但錯過了一些文件使用beautifullsoup和python從網站/文件中提取.js文件

jss = soup.findAll(name = 'script', attrs = { 'src': re.compile('\.js') }) 

例如js文件的時刻代碼:

src=http://krebsonsecurity.com/wp-content/plugins/comment-rating-pro/ck-karma.js?ver=3.3.2 

然後它錯過。

任何人都知道能夠提取js文件的最佳實現。

乾杯

+0

你有使用不同的正則表達式嘗試? –

+0

我嘗試了一些我在網上找到的例子,但他們沒有工作,要麼包括不是.js文件的鏈接,要麼在一些鏈接上丟失。 – Eternity

+0

嗯。我測試了上面的js鏈接,「\ .js」對我來說工作正常。你確定這是問題嗎? –

回答

0

卸下什麼src的數值是極限(超越「有一個src」):

re.compile('\.+') 
+0

這實際上解決了它。 Cheers Mate ....但它也可能包含任何其他腳本,不能想到任何:p也許我應該檢查src值是否包含.js文件,如link.find(「。js」)= = 1 – Eternity

+0

一些網站,假設亞馬遜在腳本中包含了.js文件ex:「