刮痧項目我寫了下面的蜘蛛颳了WebMD的網站病人評論使用scrapy
from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class MySpider(BaseSpider):
name = "webmd"
allowed_domains = ["webmd.com"]
start_urls = ["http://www.webmd.com/drugs/drugreview-92884-Boniva"]
def parse(self, response):
hxs = HtmlXPathSelector(response)
titles = hxs.select("//p")
title = titles.select("//p[contains(@class, 'comment')and contains(@style, 'display:none')]/text()").extract()
print(title)
執行這段代碼給了我想要的輸出,但有很多重複,即相同的意見都至少重複做10倍。 幫我解決這個問題。
謝謝!!!它的工作原理... –
很高興我能提供幫助。另外,您最好將不贊成使用的'scrapy.BaseSpider'更改爲'scrapy.Spider'。爲了節省評論,你可以使用[Scrapy Items](https://doc.scrapy.org/en/latest/topics/items.html)。 – vold
你能幫我將評論保存在.csv文件中嗎?每個評論在不同的單元格。 –