scrapy

    -1熱度

    1回答

    當xpaths硬編碼但不適用於變量時,我的scrapy腳本返回結果。我缺少 以下工作: response.selector.xpath('//*[(@id = "abc")]').extract() 下列不工作: response.xpath("{}".format(xpath_variable)).extract() 有人能告訴我什麼,我做錯了。謝謝!

    1熱度

    2回答

    我是Scrapy的新手,並嘗試使用它來練習抓取網站。但是,即使我遵循教程提供的代碼,它也不會返回結果。它看起來像yield scrapy.Request不起作用。我的代碼如下: Import scrapy from bs4 import BeautifulSoup from apple.items import AppleItem class Apple1Spider(scrapy.Spi

    1熱度

    1回答

    我正在編寫爬行列表網頁的Scrapy蜘蛛。該列表項目包含多個屬性,如地址和年份。在Scrapy官方網站上有關於嵌套選擇器的說明: >>> links = response.xpath('//a[contains(@href, "image")]') >>> links.extract() [u'<a href="image1.html">Name: My image 1 <br><img sr

    0熱度

    2回答

    我想爲密鑰異步查詢數據庫,然後向每個密鑰的多個URL發出請求。 我有一個函數從數據庫返回一個Deferred,它的值是幾個請求的關鍵字。理想情況下,我會調用這個函數並從start_requests返回一個Deferreds生成器。 @inlineCallbacks def get_request_deferred(self): d = yield engine.execute(sel

    1熱度

    1回答

    我試圖在Docker容器中同時使用Splash(呈現JavaScript)和Tor通過Privoxy(提供匿名性)來抓取Scrapy蜘蛛。下面是我使用這個月底docker-compose.yml: version: '3' services: scraper: build: ./apk_splash # environment: # - http_pr

    2熱度

    1回答

    我想有兩個「擴展」運行Scrapy蜘蛛: Splash渲染JavaScript中, Tor-Privoxy提供匿名。 作爲一個例子,我在https://github.com/scrapy-plugins/scrapy-splash/tree/master/example中使用quotes.toscrape.com的刮刀。這裏是我的目錄結構: . ├── docker-compose.yml └

    0熱度

    2回答

    我正在嘗試爲TripAdvisor建立一個Python Scrapy蜘蛛,並試圖爲每個評論拉取泡沫/星級評分。我已經瀏覽了幾個在線教程,但它們看起來已經過時了,因爲泡泡圖片的標籤似乎已經發生了變化。 目前,我正在嘗試根據TripAdvisor提供的HTML中每個氣泡評級的@alt變量文本。這是我想要的片段訪問: <div class="rating reviewItemInline">

    1熱度

    1回答

    我需要幫助來安排每隔N分鐘運行一次蜘蛛。早期我看到大多數人使用reactor.callLater和reactor.run來達到這個目的,但似乎現在沒有可能使用這些功能。我怎樣才能安排它programmaticaly? def run_crawl(): """ Run a spider within Twisted. Once it completes, wait 5

    1熱度

    1回答

    從我的理解是,爲了讓我使用文件管道我需要包括這些我settings.py: AWS_ACCESS_KEY_ID = 'access key' AWS_SECRET_ACCESS_KEY= 'secret' FILES_STORE = 's3://bucket/' ,我需要這些添加到我的項目對象 file_urls = scrapy.Field() files = scrapy.Field

    0熱度

    1回答

    這是我第一次使用網絡抓取的經驗,我不知道我是否做得好。關鍵是我想同時抓取和抓取數據。 得到所有我會刮掉 商店他們到MongoDB的鏈接 訪問逐一刮其內容 # Crawling: get all links to be scrapped later on class LinkCrawler(Spider): name="link" allowed_domains = ["web