scrapy

0熱度

1回答

使用Scrapy的FormRequest.from_response方法自動抓取下拉菜單明智的數據

我一直在爲這兩天掙扎。我需要從this網站抓取所有「幹部」或類別的數據。不幸的是，該網站允許通過沒有「所有類別」選項的下拉菜單「選擇幹部」來訪問這些數據。爲了避免這種情況，我使用了Scrapy的FormRequest.from_response方法，但是蜘蛛正在返回一個沒有數據的空白文件。任何幫助表示讚賞。下面的代碼： import scrapy class IASWinnerSpider(s

0熱度

2回答

使用python scrapy提取鏈接和文本

我是Python和Scrapy的新手。我想從網站http://www.vodafone.com.au/about/legal/critical-information-summary/plans中提取信息，包括文件的鏈接，名稱和有效的。我試過這段代碼，但它不起作用。如果有人能解釋並幫助我，我將不勝感激。這裏是文件vodafone.py import scrapy from scrapy.l

0熱度

1回答

用Scrapy遞歸地刮擦插接板 - 「蜘蛛必須返回請求」錯誤

爲了磨練我的python和Spark GraphX技能，我一直在嘗試構建一個Pinboard用戶和書籤圖。爲了做到這一點，我遞歸刮插件板書籤以下列方式：開始與用戶和刮所有書籤每個書籤，由url_slug鑑定，發現也拯救了所有用戶相同的書籤。對於從第2步的每個用戶，重複上述過程，（去1，...），儘管有來自多個線程在這裏（包括使用規則），當我嘗試實現這個邏輯試圖建議，我得到以下錯誤： ERR

0熱度

1回答

無法將某些字段從一種方法傳遞到另一種方法

我試圖用python scrapy創建一個解析器，它應該從網頁中提取一些字段。我在這裏面臨的問題是，我無法以正確的方式將參數傳遞給蜘蛛類中的「target_page」方法。我知道我將「標題」和「值」字段從「parse」方法傳遞給「target_page」的方式並不是pythonic。但是，我做到了，因爲我真的不知道如何以正確的方式在「target_page」方法中傳遞上述字段。我該怎麼做？提前致謝

0熱度

2回答

重置Scrapy中的cookies而不禁用它們

我使用CrawlSpider來抓取網站。該網站使用cookie檢測我的蜘蛛。如果我禁用它們，它也會檢測到我是一個機器人。那麼如何在每個請求中使用新的cookie。我的蜘蛛很簡單： # -*- coding: utf-8 -*- import scrapy import requests from scrapy.spiders import CrawlSpider, Rule from s

0熱度

2回答

scrapy登錄不起作用

我正在嘗試登錄，但它甚至沒有輸入表單數據。這是我的代碼登錄部分： start_urls = ['https://stmforum.com/amember/login.php'] def parse(self, response): return FormRequest(url="https://stmforum.com/amember/protect/new-rewrite?f=

-2熱度

3回答

我怎樣才能增加鏈接

我有一個鏈接：https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP1.htm 我想增加這樣的鏈接：https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP2.htm 然後3,4,5 .... 我的代碼是： # -*- cod

0熱度

2回答

如何用Splash刮刮JS頁面？

我正在搜索這個鏈接，但我沒有成功，我沒有犯任何錯誤，我的價值觀變得空白。我正在使用python scrapy和splash。怎麼了？有人幫助我嗎？這是我的蜘蛛代碼： # -*- coding: utf-8 -*- import scrapy from scrapy_splash import SplashRequest from boom.items impor

0熱度

1回答

Scrapy履帶不會遞歸爬行下一頁

我想建立這種爬蟲從Craigslist網站得到住房數據，，但獲取的第一頁後，履帶停止，不進入下一個頁面。下面是代碼，它的工作原理爲第一頁，但對上帝的愛我不明白爲什麼它不進入下一個頁面。任何見解是非常感謝。我跟着this part from scrapy tutorial import scrapy import re from scrapy.linkextractors import L

0熱度

1回答

scrapy：不同的網址

在向URL發送請求時遇到問題。雖然在主要頁面檢查我得到的URL在HREF作爲但是，當鏈接變得開放，這似乎是：兩個鏈接是不同的，我怎麼能彌補這方面的要求。這裏就是我說殼：