2012-11-23 16 views
0

我正在抓取Scrapy中的所有內容。 我看到很多人都在用美麗的湯來解析。使用Scrapy可以增加性能

我只是想知道它有什麼優勢在速度,效率或更多slectrors等方面,幫助我在創造蜘蛛和爬蟲或單獨scrapy應該夠我

回答

2

使用BeautifulSoup代替Scrapy內置解析器選擇器mechanishm的性能取決於許多因素:例如,它允許使用different parsers; lxml是他們中最快的。還有some other things that can be done以改善BeautifulSoup性能。總體而言,您可能會達到類似的表現,但總的來說,使用BeautifulSoup不會帶來速度上的優勢。

但是,BeautifulSoup確實提供了Scrapy不提供的一些有利的替代提取API和選擇器機制。

特別是,您可能會發現CSS selectors非常方便。

+0

感謝哥們,那是我一直在尋找的答案 – user825904

0

很好的答案是,你應該嘗試用HtmlSelector解析幾頁,然後使用美麗的湯。並找到一些統計數據。

2ndly大多數人使用美麗的湯甚至LXML解析,因爲他們已經習慣了使用這個。

Scrapy基本動機是爬行,如果你不舒服的Xpath你可以用美麗的湯LXML去(雖然LXML包還支持XPath的)甚至只有正則表達式解析