scrapy

    0熱度

    1回答

    我一直在爲這兩天掙扎。我需要從this網站抓取所有「幹部」或類別的數據。不幸的是,該網站允許通過沒有「所有類別」選項的下拉菜單「選擇幹部」來訪問這些數據。爲了避免這種情況,我使用了Scrapy的FormRequest.from_response方法,但是蜘蛛正在返回一個沒有數據的空白文件。任何幫助表示讚賞。下面的代碼: import scrapy class IASWinnerSpider(s

    0熱度

    2回答

    我是Python和Scrapy的新手。我想從網站http://www.vodafone.com.au/about/legal/critical-information-summary/plans中提取信息,包括文件的鏈接,名稱和有效的。 我試過這段代碼,但它不起作用。如果有人能解釋並幫助我,我將不勝感激。 這裏是文件vodafone.py import scrapy from scrapy.l

    0熱度

    1回答

    爲了磨練我的python和Spark GraphX技能,我一直在嘗試構建一個Pinboard用戶和書籤圖。爲了做到這一點,我遞歸刮插件板書籤以下列方式: 開始與用戶和刮所有書籤 每個書籤,由url_slug鑑定,發現也拯救了所有用戶相同的書籤。 對於從第2步的每個用戶,重複上述過程,(去1,...),儘管有來自多個線程在這裏(包括使用規則),當我嘗試實現這個邏輯試圖建議 ,我得到以下錯誤: ERR

    0熱度

    1回答

    我試圖用python scrapy創建一個解析器,它應該從網頁中提取一些字段。我在這裏面臨的問題是,我無法以正確的方式將參數傳遞給蜘蛛類中的「target_page」方法。我知道我將「標題」和「值」字段從「parse」方法傳遞給「target_page」的方式並不是pythonic。但是,我做到了,因爲我真的不知道如何以正確的方式在「target_page」方法中傳遞上述字段。我該怎麼做?提前致謝

    0熱度

    2回答

    我使用CrawlSpider來抓取網站。該網站使用cookie檢測我的蜘蛛。如果我禁用它們,它也會檢測到我是一個機器人。那麼如何在每個請求中使用新的cookie。 我的蜘蛛很簡單: # -*- coding: utf-8 -*- import scrapy import requests from scrapy.spiders import CrawlSpider, Rule from s

    0熱度

    2回答

    我正在嘗試登錄,但它甚至沒有輸入表單數據。 這是我的代碼登錄部分: start_urls = ['https://stmforum.com/amember/login.php'] def parse(self, response): return FormRequest(url="https://stmforum.com/amember/protect/new-rewrite?f=

    -2熱度

    3回答

    我有一個鏈接:https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP1.htm 我想增加這樣的鏈接:https://www.glassdoor.ca/Job/canada-data-jobs-SRCH_IL.0,6_IN3_KE7,11_IP2.htm 然後3,4,5 .... 我的代碼是: # -*- cod

    0熱度

    2回答

    我正在搜索這個鏈接,但我沒有成功,我沒有犯任何錯誤,我的價值觀變得空白。 我正在使用python scrapy和splash。怎麼了 ?有人幫助我嗎? 這是我的蜘蛛代碼: # -*- coding: utf-8 -*- import scrapy from scrapy_splash import SplashRequest from boom.items impor

    0熱度

    1回答

    我想建立這種爬蟲從Craigslist網站得到住房數據, ,但獲取的第一頁後,履帶停止,不進入下一個頁面。 下面是代碼,它的工作原理爲第一頁,但對上帝的愛我不明白爲什麼它不進入下一個頁面。任何見解是非常感謝。我跟着this part from scrapy tutorial import scrapy import re from scrapy.linkextractors import L

    0熱度

    1回答

    在向URL發送請求時遇到問題。 雖然在主要頁面檢查我得到的URL在HREF作爲 但是,當鏈接變得開放,這似乎是: 兩個鏈接是不同的,我怎麼能彌補這方面的要求。 這裏就是我說殼: