刮我想建立一個蜘蛛從網站Techcrunch - Heartbleed search的Python/Scrapy來自Techcrunch的
我因子評分是執行命令行(例如:心臟出血漏洞)蜘蛛的時候給一個標籤刮掉一些數據。然後,蜘蛛應搜索所有相關搜索結果,打開每個鏈接並獲取其中的數據。
import scrapy
class TechcrunchSpider(scrapy.Spider):
name = "tech_search"
def start_requests(self):
url = 'https://techcrunch.com/'
tag = getattr(self, 'tag', None)
if tag is not None:
url = url + '?s=' + tag
yield scrapy.Request(url, self.parse)
def parse(self, response):
pass
this code can be executed with : scrapy crawl tech_search -s DOWNLOAD_DELAY=1.5 -o tech_search.jl -a tag=EXAMPLEINPUT"
充分利用個人網頁中的數據是沒有問題的,但實際得到的URL,他們是(從上面鏈接的搜索頁):
的事情是,當看着搜索網站的源Html文件(Ctrl + u)(上面的鏈接),然後我找不到任何有關搜索到的元素(例如:「什麼是Heartbleed?視頻」)。任何建議如何獲得這些元素?
一如既往的幫助!謝謝 – BlackBat
非常歡迎。 –