2014-10-03 20 views
1

我目前使用美麗的湯來解析一個網頁的HTML。不過,我也想遞歸解析網頁上的任何.js文件。我的目標是尋找嵌入在網站的HTML或JavaScript中的某些URL。我可以用基本的HTML頁面來做,但是進入JavaScript文件會讓我感到困惑。任何幫助?使用python解析網頁上的HTML和腳本?

+0

相關http://stackoverflow.com/questions/390992/javascript-parser-in-python。 – br3w5 2014-10-03 21:43:55

回答

0

按照this StackOverflow question的接受答案中列出的步驟操作。然後,您可以使用的資源,例如一個請求,優秀requests library

import requests 

r = requests.get("http://ajax.googleapis.com/ajax/libs/jquery/1.7.1/jquery.min.js") 

然後,您可以搜索r.textusing regex找到你正在尋找的任何鏈接。

如果你仍然需要解析JavaScript,那麼最近的回答this StackOverflow question建議slimit一旦你有JavaScript。