0
我試圖從espn中刮取一張表並將數據發送到熊貓數據框以便將其導出到excel。我已經完成了大部分的抓取工作,但我陷入瞭如何將每個'td'標記發送到我的for循環中的唯一數據框單元格的問題。 (代碼如下)有什麼想法?謝謝!從WebScraping結果創建Pandas Dataframe
import requests
import urllib.request
from bs4 import BeautifulSoup
import re
import os
import csv
import pandas as pd
def make_soup(url):
thepage = urllib.request.urlopen(url)
soupdata = BeautifulSoup(thepage, "html.parser")
return soupdata
soup = make_soup("http://www.espn.com/nba/statistics/player/_/stat/scoring-
per-game/sort/avgPoints/qualified/false")
regex = re.compile("^[e-o]")
for record in soup.findAll('tr', {"class":regex}):
for data in record.findAll('td'):
print(data)
閱讀:https://stackoverflow.com/a/1732454/4047084 –
什麼?正則表達式在那裏刪除出現在每n行的多個頭部。 – johankent30
去除的位置在哪裏?您正在BeautifulSoup的解析函數findAll()中應用正則表達式。因此,上面的鏈接。 – Parfait