scrapy

    -1熱度

    1回答

    import scrapy class Pttscrapper2Spider(scrapy.Spider): name = 'PTTscrapper2' allowed_domains = ['https://www.ptt.cc'] start_urls = ['https://www.ptt.cc/bbs/HatePolitics/index.html/']

    -1熱度

    1回答

    我試圖使用Scrapy來下載我的Quora答案,但我似乎無法下載我的頁面。使用簡單 scrapy shell 'http://it.quora.com/profile/Ferdinando-Randisi' 返回該錯誤 2017-10-05 22:16:52 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: quora) 2017-10-

    0熱度

    1回答

    我想做一個自定義的延遲,因爲全局延遲在我的代碼中是低效的。 因爲我不知道我在尋找什麼在這個線程:scrapy is slow (60 pages/min) 我決定最好把它作爲一個新的問題。 基本上我有: amazon request API request API request 如果我使用DOWNLOAD_DELAY = 1 它就像有: amazon request delay(1)

    -2熱度

    3回答

    我對網絡剪輯的瞭解不多我已經開始爲我找到一個非常複雜的問題,我會盡力解釋我所能做到的最好的(因此,我已經開放了我的文章中的建議或編輯)。 我很早以前就開始使用網絡抓取框架'Scrapy'來進行網絡掃描,而且它仍然是我現在使用的那個。最近,我碰到了this website,發現我的框架(Scrapy)無法遍歷頁面,因爲此網站使用Fragment URLs(#)加載數據(下一頁)。然後我提出了一個關於

    0熱度

    2回答

    雖然有很多問題,但由於「dont_filter」參數,大多數人遇到此問題,我通過了這個參數「dont_filter = True」,但我的自定義解析生成器仍然沒有工作,下面是我的代碼(第三個解析器「parse_spec」從來沒有被調用,「parse_models_follow_next_page」在被parse()調用時工作得很好,但當它需要轉到下一頁時它不能調用自己) : import scra

    0熱度

    1回答

    試圖找出scrapy如何工作並使用它來查找有關論壇的信息。 items.py import scrapy class BodybuildingItem(scrapy.Item): # define the fields for your item here like: title = scrapy.Field() pass spider.py from sc

    0熱度

    1回答

    所以我是Python新手,學習它的好方法是做一些個人項目:)所以我在我的Windows,並使用virtualenv遏制環境 所以,我需要使用雜湊模塊: pip install scrappy Collecting scrappy Using cached Scrappy-0.3.0.alpha.4.tar.gz Collecting guessit (from scrappy)

    0熱度

    1回答

    假設我有一個列表alist,如何添加尾隨逗號? alist = [1,2,3,4,5,...,100] list_wanted = [1,2,3,4,5....,100,] 我需要一個拖尾逗號來將列表擬合到scrapy中,如果有尾隨逗號,它只能識別最後一個元素。 欣賞幫助。

    0熱度

    1回答

    我想保存我的數據,編輯它,然後再次保存爲同一個對象(它是一個字典?)。 我用yield {'Id':id,'Name':name,'Age':age}將數據保存爲mongodb。 之後,我用下面的代碼讀出的數據: import scrapy import pymongo from pymongo import MongoClient class example(scrapy.Spider)

    -1熱度

    1回答

    使用Python 2.7.10版。試圖通過運行這個蜘蛛從網頁中提取數據。當我安裝scrapy並在我的mac終端上運行它時,我能夠獲得最初的數據。但是現在我無法獲取數據,而是收到Traceback錯誤。 import scrapy class ShopcluesSpider(scrapy.Spider): name = 'shopclues' allowed_domains