我解析HTML頁面與幾個腳本塊:從HTML頁面中提取JavaScript函數的參數與BeautifulSoup
<script type="text/javascript">
// some code
</script>
<script type="text/javascript">
foo(arg1, arg2);
// some code
</script>
我需要提取FOO的參數功能 - 「ARG1」和'ARG2'。目前,我可以得到腳本標籤內內容:
def parse_foo(pageContent):
soup = BeautifulSoup(pageContent)
scriptTags = soup.find_all('script')
for script in scriptTags:
tagContent = script.get_text()
if tagContent.count('foo') > 0:
return tagContent
return ''
有沒有什麼辦法讓使用BeautifulSoup或參數我應該使用正則表達式?
無論你決定,不要使用正則表達式。 – That1Guy
你爲什麼需要參數? – That1Guy
@ That1Guy請證明爲什麼'/^\ s * foo \((。*)\); $ /'不起作用? – Brian