我在我的電腦上有一個270MB數據集(10000個html文件)。我可以使用Scrapy在本地抓取此數據集嗎?怎麼樣?離線(本地)數據上的Python Scrapy
13
A
回答
29
SimpleHTTP服務器託管
如果你真的想在本地建立並使用scrapy,你可以通過導航到它的存儲在目錄服務並運行SimpleHTTPServer(如下圖所示的8000端口):
python -m SimpleHTTPServer 8000
然後,只需在127.0.0.1:8000
$ scrapy crawl 127.0.0.1:8000
文件指向scrapy://
另一種方法是隻scrapy點到設定的文件直接:
$ scrapy crawl file:///home/sagi/html_files # Assuming you're on a *nix system
結束語
一旦你設置了刮板的scrapy(見example dirbot),只需運行履帶:
$ scrapy crawl 127.0.0.1:8000
如果html文件中的鏈接是絕對的而不是相對的,但這些可能無法正常工作。你需要自己調整文件。
10
轉到您的數據集文件夾:
import os
files = os.listdir(os.getcwd())
for file in files:
with open(file,"r") as f:
page_content = f.read()
#do here watever you want to do with page_content. I guess parsing with lxml or Beautiful soup.
沒有必要去爲Scrapy!
相關問題
- 1. 搜索郵編在線但不離線(從本地數據庫)
- 2. 的Python - Scrapy數據列表
- 3. 離線本地通知(Swift)
- 4. 本地Bugzilla安裝離線
- 5. 使用Cognito本地[離線]
- 6. 出與本地離線數據庫和WCF的RIA
- 7. 本地科爾多瓦應用程序的離線數據庫
- 8. 有沒有辦法在iPhone的離線openstreetmaps sqlite地圖瓷磚數據庫上實現離線地理編碼?
- 9. 上傳離線數據和上傳失敗的數據
- 10. 如何從sql文件創建本地離線sqlplus數據庫?
- 11. 本地複製/緩存Azure數據庫以供離線使用。
- 12. 如何製作本地離線數據庫
- 13. 的Python和Scrapy:問題與Scrapy版本
- 14. Scrapy - 從python腳本
- 15. 如何建立Windows Phone 8離線地圖加載地圖上的本地數據
- 16. 在Python本地存儲數據
- 17. Scrapy Python中的Scrapy
- 18. 離線地圖iPhone與離線路由
- 19. (Python,Scrapy)將txt文件中的數據轉換爲Scrapy蜘蛛
- 20. 我怎樣才能在Python寫數據的文本文件Scrapy
- 21. openwrap離線或本地唯一模式
- 22. 配置選項離線/本地網站
- 23. 腳本Scrapy。不出口,我想從腳本運行scrapy數據
- 24. 分離數據庫/離線失敗
- 25. 在Android上創建離線地圖
- 26. Android:離線地圖
- 27. Xamarin.forms離線地圖
- 28. 離線地圖sdk
- 29. 存儲Scrapy數據thro Scrapy
- 30. Codewars Python TDD離線
你知道給自己獎勵獎勵並不會讓你獲得一頂帽子,對嗎? :-P –
@MartijnPieters我給幾個獎勵。節日快樂!在某種程度上,我希望提問者能接受答案。 : -/ –
你的回答肯定是足夠的,至少得到*一些*反饋,的確如此! –