scrapy

-1熱度

1回答

import scrapy class Pttscrapper2Spider(scrapy.Spider): name = 'PTTscrapper2' allowed_domains = ['https://www.ptt.cc'] start_urls = ['https://www.ptt.cc/bbs/HatePolitics/index.html/']

-1熱度

1回答

如何使用Scrapy下載我所有的Quora答案？

我試圖使用Scrapy來下載我的Quora答案，但我似乎無法下載我的頁面。使用簡單 scrapy shell 'http://it.quora.com/profile/Ferdinando-Randisi' 返回該錯誤 2017-10-05 22:16:52 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: quora) 2017-10-

0熱度

1回答

scrapy如何自定義延遲

我想做一個自定義的延遲，因爲全局延遲在我的代碼中是低效的。因爲我不知道我在尋找什麼在這個線程：scrapy is slow (60 pages/min) 我決定最好把它作爲一個新的問題。基本上我有： amazon request API request API request 如果我使用DOWNLOAD_DELAY = 1 它就像有： amazon request delay(1)

-2熱度

3回答

如何使用Selenium在scrapy中生成片段URL？

我對網絡剪輯的瞭解不多我已經開始爲我找到一個非常複雜的問題，我會盡力解釋我所能做到的最好的（因此，我已經開放了我的文章中的建議或編輯）。我很早以前就開始使用網絡抓取框架'Scrapy'來進行網絡掃描，而且它仍然是我現在使用的那個。最近，我碰到了this website，發現我的框架（Scrapy）無法遍歷頁面，因爲此網站使用Fragment URLs（＃）加載數據（下一頁）。然後我提出了一個關於

0熱度

2回答

scrapy.Reaquests（）回調不起作用

雖然有很多問題，但由於「dont_filter」參數，大多數人遇到此問題，我通過了這個參數「dont_filter = True」，但我的自定義解析生成器仍然沒有工作，下面是我的代碼（第三個解析器「parse_spec」從來沒有被調用，「parse_models_follow_next_page」在被parse（）調用時工作得很好，但當它需要轉到下一頁時它不能調用自己）： import scra

0熱度

1回答

Scrapy不產生結果（爬行0頁）

試圖找出scrapy如何工作並使用它來查找有關論壇的信息。 items.py import scrapy class BodybuildingItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() pass spider.py from sc

0熱度

1回答

pip在Python 3中安裝python模塊，但該模塊有一個依賴包，需要Python 2

所以我是Python新手，學習它的好方法是做一些個人項目:)所以我在我的Windows，並使用virtualenv遏制環境所以，我需要使用雜湊模塊： pip install scrappy Collecting scrappy Using cached Scrappy-0.3.0.alpha.4.tar.gz Collecting guessit (from scrappy)

0熱度

1回答

將尾隨逗號添加到列表中，開箱即用

假設我有一個列表alist，如何添加尾隨逗號？ alist = [1,2,3,4,5,...,100] list_wanted = [1,2,3,4,5....,100,] 我需要一個拖尾逗號來將列表擬合到scrapy中，如果有尾隨逗號，它只能識別最後一個元素。欣賞幫助。

0熱度

1回答

scrapy如何屈服於現有物體mongodb

我想保存我的數據，編輯它，然後再次保存爲同一個對象（它是一個字典？）。我用yield {'Id'：id，'Name'：name，'Age'：age}將數據保存爲mongodb。之後，我用下面的代碼讀出的數據： import scrapy import pymongo from pymongo import MongoClient class example(scrapy.Spider)

-1熱度

1回答

執行Scrapy時無法成功執行爬網，因爲Scrapy在執行時

使用Python 2.7.10版。試圖通過運行這個蜘蛛從網頁中提取數據。當我安裝scrapy並在我的mac終端上運行它時，我能夠獲得最初的數據。但是現在我無法獲取數據，而是收到Traceback錯誤。 import scrapy class ShopcluesSpider(scrapy.Spider): name = 'shopclues' allowed_domains