scrapy

0熱度

2回答

因此，我試圖在scrapy中測試一些網頁，我的想法是產生一個滿足條件的URLS請求，計數頁面上的某些項目的數量，然後將原來的狀態中恢復真/假取決於... 下面是一些代碼來說明我的意思： def filter_categories: if condition: test = yield Request(url=link, callback = self.test_page, d

0熱度

1回答

Xpath語法從子節點提取內容，如果其他子節點具有特定值？

我想從HTML塊中的段落標記中提取「藍色」文本，但僅當h2標記爲==到「Foo」時才提取。如何編寫一個Xpath語句，通過檢查h2的內容來返回p的內容？ <section class="panel"> <header class="panel-heading"> <h2 class="h5 mrgn-tp-0 mrgn-bttm-0"> Foo col

2熱度

1回答

是否有可能找到具有相同dom結構的節點

我已經通過Scrapy從許多網站爬取了許多htmls（具有類似內容），而dom結構不同。例如，一個站點使用以下結構： <div class="post"> <section class='content'> Content1 </section> <section class="panel"> </section> </div> <div

0熱度

1回答

scrapy：將參數傳遞給抓取程序

我正在做一個scrapy爬行程序。我有一個python模塊從數據庫中獲取urls，並且應該配置scrapy爲每個url啓動一個蜘蛛。因爲我從腳本啓動scrapy，所以我不知道如何在命令行開關-a中傳遞它的參數，以便每個調用接收不同的url。這裏去了代號爲scrapy呼叫者 def scrape_next_url() : conn = _mysql.connect(host, username

2熱度

1回答

如何從另一個開始Scrapy蜘蛛

我在一個Scrapy項目中有兩個蜘蛛。 Spider1抓取頁面或整個網站的列表並分析內容。 Spider2使用Splash在Google上獲取網址並將該列表傳遞給Spider1。所以，Spider1抓取和分析內容，並可以在不被Spider2 # coding: utf8 from scrapy.spiders import CrawlSpider import scrapy class

0熱度

1回答

無法使用scrapy登錄

我試圖抓取我必須首先登錄的頁面，但由於某種原因，scrapy在使用FormRequest之後爬取了另一個無關的頁面。見下面我的代碼： # coding: utf-8 import scrapy from scrapy.http import Request, FormRequest usuario = 'myemail' senha = 'mypassword' urllogin =

2熱度

3回答

Scrapy：抓取多個蜘蛛共享相同的物品，管道和設置，但具有單獨的輸出

我想使用基於官方文檔中提供的代碼的Python腳本運行多個蜘蛛。我的scrapy項目包含多個蜘蛛（Spider1，Spider2,等）它抓取不同的網站並將每個網站的內容保存在不同的JSON文件中（output1.json，output2.json，等）。在不同網站上收集的項目共享相同的結構，因此蜘蛛使用相同的項目，管道和設置類。輸出由管道中的自定義JSON類生成。當我分別運行蜘蛛時，它們按預期

0熱度

2回答

Scrapy：從使用「id」選擇器而不是「class」的html標記中提取數據

我是網絡抓取和Scrapy的新手。我希望你能幫助我。我想從使用標籤的網頁中提取數據。通常，如果跨度標記使用的是類別，例如： <span class="class_A>Hello, World!</span> 我將使用以下代碼來檢索文本。 request.css('span.class_A::text').extract() 然而，當一個html現在使用的「ID」，而不是一個「階級」，例如

0熱度

1回答

Scrapy：ImportError：沒有模塊命名管道

我遇到問題讓我的刮刀加載物品管道。在我的努力，試圖加我的自定義管道我收到以下錯誤： ImportError: No module named pipelines 我已經試過了文檔，但它並沒有真正解釋瞭如何設置ITEM_PIPELINE選擇路徑。這是從文檔的例子： ITEM_PIPELINES = { 'myproject.pipelines.PricePipeline': 300,

0熱度

1回答

從響應Scrapy FormRequest AtrributeError：'str'對象沒有屬性'編碼'

我想用Scrapy登錄Facebook。我已經確定Facebook的手機版沒有javascript，所以我使用它。相關的代碼是 from loginform import fill_login_form from scrapy.http import FormRequest def parse(self, response): """Login to Facebook then