使用python

按照我剛纔的問題搜索在JavaScript字符串： how to fetch javascript contents in python 使用python

我試圖讓另一個腳本從一個javascript獲取數據。當然得到了網頁內容。

但是，它只是沒有顯示我想要的內容。我想從頁面的javascript中找到「content_id」。這是網頁： - http://www.hulu.com/watch/815743

這就是我現在所擁有的。

import re 
import requests 
from bs4 import BeautifulSoup 
import os 
import fileinput 


Link = 'http://www.hulu.com/watch/815743' 
q = requests.get(Link) 
soup = BeautifulSoup(q.text) 
#print soup 
subtitles = soup.findAll('script',{'type':'text/javascript'}) 
pattern = re.compile(r'"content_id":"(.*?)"', re.MULTILINE | re.DOTALL) 
script = soup.find("script", text=pattern) 
print pattern.search(script.text).group(1)

我得到這個錯誤：

AttributeError: 'NoneType' object has no attribute 'text'

不知道如何解決這個問題..？

來源

2015-09-27 Xonshiz

你有沒有考慮尋找*「AttributeError的：‘NoneType’對象有沒有屬性」 *？那裏已經有很多類似的問題了... – jonrsharpe

我試過了解決方案...沒有工作。 – Xonshiz

我從字面上不相信你 - 即使你真的*已*嘗試了所有的各種建議，爲什麼你不在問題中提到*？ – jonrsharpe

有兩個問題在您的正則表達式模式：

的引號逃脫的腳本內容反斜槓，考慮到這一點
有冒號後空白

以下是固定版本：

pattern = re.compile(r'\\"content_id\\":\s*\\"(.*?)\\"', re.MULTILINE | re.DOTALL)

適合我，因此得到60585710。

僅供參考，這裏是我執行的完整代碼：

import re 

import requests 
from bs4 import BeautifulSoup 

Link = 'http://www.hulu.com/watch/815743' 
q = requests.get(Link) 
soup = BeautifulSoup(q.text) 

pattern = re.compile(r'\\"content_id\\":\s*\\"(.*?)\\"', re.MULTILINE | re.DOTALL) 
script = soup.find("script", text=pattern) 
print pattern.search(script.text).group(1)

來源

2015-09-27 20:04:47 alecxe

好的。我看到錯誤...但是，我仍然得到相同的錯誤。你有沒有改變劇本中的其他內容？ – Xonshiz

似乎我的python安裝有一些錯誤。我在其他機器上試過我的代碼，它工作。謝謝:) – Xonshiz

回答

相關問題