scrapy

-1熱度

1回答

當xpaths硬編碼但不適用於變量時，我的scrapy腳本返回結果。我缺少以下工作： response.selector.xpath('//*[(@id = "abc")]').extract() 下列不工作： response.xpath("{}".format(xpath_variable)).extract() 有人能告訴我什麼，我做錯了。謝謝！

1熱度

2回答

產量scrapy.Request不返回標題

我是Scrapy的新手，並嘗試使用它來練習抓取網站。但是，即使我遵循教程提供的代碼，它也不會返回結果。它看起來像yield scrapy.Request不起作用。我的代碼如下： Import scrapy from bs4 import BeautifulSoup from apple.items import AppleItem class Apple1Spider(scrapy.Spi

1熱度

1回答

硒嵌套選擇器不能按預期工作

我正在編寫爬行列表網頁的Scrapy蜘蛛。該列表項目包含多個屬性，如地址和年份。在Scrapy官方網站上有關於嵌套選擇器的說明： >>> links = response.xpath('//a[contains(@href, "image")]') >>> links.extract() [u'<a href="image1.html">Name: My image 1 <br><img sr

0熱度

2回答

用於在多個請求中使用密鑰的異步查詢數據庫

我想爲密鑰異步查詢數據庫，然後向每個密鑰的多個URL發出請求。我有一個函數從數據庫返回一個Deferred，它的值是幾個請求的關鍵字。理想情況下，我會調用這個函數並從start_requests返回一個Deferreds生成器。 @inlineCallbacks def get_request_deferred(self): d = yield engine.execute(sel

1熱度

1回答

在將Splash與Scrapy結合使用HTTP代理時發生「500內部服務器錯誤」

我試圖在Docker容器中同時使用Splash（呈現JavaScript）和Tor通過Privoxy（提供匿名性）來抓取Scrapy蜘蛛。下面是我使用這個月底docker-compose.yml： version: '3' services: scraper: build: ./apk_splash # environment: # - http_pr

2熱度

1回答

如何使用Scrapy既飛濺以及Tor Privoxy的以上在泊塢撰寫

我想有兩個「擴展」運行Scrapy蜘蛛： Splash渲染JavaScript中， Tor-Privoxy提供匿名。作爲一個例子，我在https://github.com/scrapy-plugins/scrapy-splash/tree/master/example中使用quotes.toscrape.com的刮刀。這裏是我的目錄結構： . ├── docker-compose.yml └

0熱度

2回答

Xpath：訪問嵌套@alt變量

我正在嘗試爲TripAdvisor建立一個Python Scrapy蜘蛛，並試圖爲每個評論拉取泡沫/星級評分。我已經瀏覽了幾個在線教程，但它們看起來已經過時了，因爲泡泡圖片的標籤似乎已經發生了變化。目前，我正在嘗試根據TripAdvisor提供的HTML中每個氣泡評級的@alt變量文本。這是我想要的片段訪問： <div class="rating reviewItemInline">

1熱度

1回答

安排scrapy蜘蛛每隔N分鐘運行一次

我需要幫助來安排每隔N分鐘運行一次蜘蛛。早期我看到大多數人使用reactor.callLater和reactor.run來達到這個目的，但似乎現在沒有可能使用這些功能。我怎樣才能安排它programmaticaly？ def run_crawl(): """ Run a spider within Twisted. Once it completes, wait 5

1熱度

1回答

Scrapy - 上傳到S3時如何在一個項目中爲多個文件URL創建自定義路徑？

從我的理解是，爲了讓我使用文件管道我需要包括這些我settings.py： AWS_ACCESS_KEY_ID = 'access key' AWS_SECRET_ACCESS_KEY= 'secret' FILES_STORE = 's3://bucket／' ，我需要這些添加到我的項目對象 file_urls = scrapy.Field() files = scrapy.Field

0熱度

1回答

如何同時抓取和抓取數據？

這是我第一次使用網絡抓取的經驗，我不知道我是否做得好。關鍵是我想同時抓取和抓取數據。得到所有我會刮掉商店他們到MongoDB的鏈接訪問逐一刮其內容 # Crawling: get all links to be scrapped later on class LinkCrawler(Spider): name="link" allowed_domains = ["web