我要去掉下面鏈接裏面的javascript表。 http://data2.7m.cn/history_Matches_Data/2009-2010/92/en/index.shtmlPython硒,刮網頁javascript表
import codecs
import lxml.html as lh
from lxml import etree
import requests
from selenium import webdriver
import urllib2
from bs4 import BeautifulSoup
URL = 'http://data2.7m.cn/history_Matches_Data/2009-2010/92/en/index.shtml'
profile = webdriver.FirefoxProfile()
profile.set_preference('network.http.max-connections', 30)
profile.update_preferences()
browser = webdriver.Firefox(profile)
browser.get(URL)
content = browser.page_source
soup = BeautifulSoup(''.join(content))
當我到達網頁的內容,然後我需要知道圓足球的數量在那個特定的聯賽。
下面的代碼只找到唯一的表,我可以知道如何獲得所有38個足球比賽的表?謝謝。
# scrap the round of soccer matches
soup.findAll('td', attrs={'class': 'lsm2'})
# print the soccer matches' result of default round, but there have 38 rounds (id from s1 to s38)
print soup.find("div", {"id": "Match_Table"}).prettify()
但似乎時間消耗,因爲有相當多的英國足球聯賽需要報廢。有什麼更好的想法:) –