我正在使用scrapy
來從網站上刮取數據。但是,我想要的數據不在html本身內部,而是來自javascript。所以,我的問題是:Scrapy,在Javascript中刪除數據
如何獲取這些情況下的值(文本值)?
這是我想屏幕刮網站: https://www.mcdonalds.com.sg/locate-us/
屬性我試圖得到: 地址,聯繫方式,營業時間。
如果您在Chrome瀏覽器中執行「右鍵單擊」,「查看源代碼」,您將看到這些值在HTML中本身不可用。
編輯
Sry基因保羅,我做了什麼,你告訴我,找到了admin-ajax.php
,看到身體,但是,我真的現在卡住。
如何從json對象中檢索值並將其存儲到我自己的變量字段中?如果你能分享如何爲大衆和剛開始scrapy的人提供一個屬性,這將是一件好事。
這裏是我到目前爲止的代碼
Items.py
class McDonaldsItem(Item):
name = Field()
address = Field()
postal = Field()
hours = Field()
McDonalds.py
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
import re
from fastfood.items import McDonaldsItem
class McDonaldSpider(BaseSpider):
name = "mcdonalds"
allowed_domains = ["mcdonalds.com.sg"]
start_urls = ["https://www.mcdonalds.com.sg/locate-us/"]
def parse_json(self, response):
js = json.loads(response.body)
pprint.pprint(js)
Sry基因長期編輯,所以在很短了,我怎麼保存json的價值到我的屬性?對於如
***項目[ '地址'] = *如何檢索****
PS,不知道這是否可以幫助,但我使用運行CMD線這些腳本
scrapy抓取麥當勞-o McDonalds.json -t json(將我的所有數據保存到json文件中)
我無法強調自己感到多麼感激。我知道這樣詢問你是不合理的,即使你沒有時間這樣也完全沒問題。
Thx幫助Rho它的信息豐富,它的工作! *對於那些面臨同樣問題的人,請檢查這篇文章* – HeadAboutToExplode