我在Vista 64位上使用Python.org版本2.7 64位。我有當前的Scrapy代碼,現在工作得很好,現在可以提取文本,但是我對如何從網站上的表格獲取數據感到困惑。我在網上查看了答案,但我仍然不確定。舉個例子,我想獲得此表中包含了魯尼的進球統計數據:嘗試使用Scrapy從表中提取數據
http://www.whoscored.com/Players/3859/Fixtures/Wayne-Rooney 我目前擁有的代碼是這樣的:
from scrapy.spider import Spider
from scrapy.selector import Selector
from scrapy.utils.markup import remove_tags
from scrapy.cmdline import execute
import re
class MySpider(Spider):
name = "Goals"
allowed_domains = ["whoscored.com"]
start_urls = ["http://www.whoscored.com/Players/3859/Fixtures/Wayne-Rooney"]
def parse(self, response):
titles = response.selector.xpath("normalize-space(//title)")
for titles in titles:
body = response.xpath("//p").extract()
body2 = "".join(body)
print remove_tags(body2).encode('utf-8')
execute(['scrapy','crawl','goals'])
什麼語法確實需要在使用xpath()語句來獲取表格數據?
感謝
你想從頁面中獲得什麼 –
@PadraicCunningham在文本'Wayne Rooney的比賽歷史記錄'下面看起來像是一個表格的數據:'...我查看了一些在線的xpath示例,但沒有一個似乎在這種情況下返回任何東西。我按F12來檢查頁面結構,但我不確定我在看什麼。 – gdogg371