嘿傢伙對於我的學校項目,我需要網頁廢料slideshare.net使用python的頁面瀏覽量。然而,它不會讓我刮用戶名的頁面瀏覽量(教授明確告訴我們要刮)例如,如果我去slideshare.net/Username底部會有一個頁面瀏覽計數器,當我進入頁面源代碼是slideshare web廢頁面視圖python
<span class="noWrap"> xxxx views </span>
當我插入蟒蛇這是
<span class="noWrap"> (.+?) </span>
什麼也沒有發生我得到的是[]在從放窗口
下面是完整的代碼 -
import urllib
import re
symbolfile = open("viewpage.txt")
symbolslist = symbolfile.read()
for symbol in symbolslist:
print symbol
htmlfile = urllib.urlopen("http://www.slideshare.net/xxxxxxx")
htmltext = htmlfile.read()
regex = ' <span class="noWrap">(.+?)</span>'
regex_a = '<title>(.+?)</title>'
pattern = re.compile(regex)
pattern_a = re.compile(regex_a)
view = re.findall(pattern,htmltext)
view_a = re.findall(pattern_a,htmltext)
print (view, view_a)
「xxxx views」是什麼意思?什麼'x'? – Kasramvd 2014-09-19 06:44:26