2017-06-15 31 views
0

我已經部署了一些Scrapy蜘蛛來抓取可以從ScrapingHub以.csv格式下載的數據。如何從ScrapingHub中提取文件?

其中一些蜘蛛有FilePipeline,我用它將文件(pdf)下載到特定的文件夾。有什麼方法可以通過平臺或API從ScrapingHub中檢索這些文件嗎?

回答

1

雖然我不得不去抓取集線器文檔,但我很確定,儘管有一個文件瀏覽器沒有生成實際的文件,或者在爬行和支柱期間被忽略......我假設所以給出了事實如果您嘗試使用除了與scrappy項目相對應的文件之外的任何其他項目部署其中一個項目(),除非您使用設置和設置文件進行一些黑客操作,然後scrapinghub接受您的額外參數孤兒)...例如,如果您嘗試在文件中包含大量起始URL,然後使用真實和函數將所有內容解析到您的蜘蛛中......像魅力一樣工作,但是scrapinghub不是以此爲基礎構建的...

我假設你知道你可以用CSV或desir下載你的文件ed格式直接從網絡界面...我個人使用Python中的抓取Hub客戶端API ...所有這三個庫,我相信我們在這一點上不贊成,但你必須混合和匹配,以獲得功能齊全的腳例如...

我有一個非常着名的pornt網站的這一方演出,我爲他們做的是內容聚合我花了很多時間看很多o放蕩,但對於像我這樣的人這只是有趣的。 ..希望你正在閱讀這本書,而不是想太多的變態LOL得到這筆錢對嗎?無論如何...通過使用python的抓取API客戶端,我可以通過API密鑰連接到我的帳戶,並按照我的需要進行操作,我個人認爲存在一些侷限性,其中一個限制並不僅僅是一件讓我難以接受的事情是,獲取項目名稱的函數在客戶端庫的第一個版本中已被廢棄......我' d喜歡看,當我解析我的項目時,其中蜘蛛要運行不同的工作的項目名稱Ergo the crawlz ...因此,當我第一次開始亂用客戶端時,它看起來很雜亂,

Python API Client for SH

什麼是更真棒這是我的生活如此甜蜜的是,當你創建一個項目運行你的蜘蛛和我提到的所有項目都收集可以直接從Web界面下載這些文件,但我可以do的目標是我的輸出給予我期望的效果充足。

我正在爬取一個網站,並且我收到了一個像視頻這樣的媒體項目,您總是需要三件事。媒體的名稱或視頻的標題,視頻可以到達的URL源或嵌入的URL,然後您可以請求獲取您需要的每個實例......當然還包括什麼是與視頻媒體相關聯的標籤和類別。

目前輸出量最大的項目中,我認爲是最大的爬網次數爲150,000次,這是在國外爬行,這是類似dupla Fire案件的15%或17%。然後,我使用API​​客戶端通過其給定的字典或鍵值(不是字典順便說一句)來調用每個視頻......當然,在我的情況下,我將始終使用全部三個鍵值,但是我可以將目標類別或標籤或者在其對應位置的關鍵值下輸出,只輸出項目和它們的總體(意味着仍然輸出所有三個項目)僅打印出符合或匹配特定字符串或表達的那些字符或表達我希望允許我真正能夠通過部分我的內容相當有效。在這個特定的scrapy項目中,我只是簡單地從這個'pronz'打印或創建一個.m3u播放列表!

Creating .m3u Playlists straight from SH