2011-12-01 35 views
4

我知道如何使用Python解析的頁面。我的問題是哪個是所有解析技術中最快的方法,它與其他方法的速度有多快?Xpath的VS DOM VS BeautifulSoup VS LXML VS另一類則是解析網頁最快的方法?

的解析技術,我知道是Xpath的,DOM,BeautifulSoup,並使用Python的find方法。

+5

選擇一個網頁。使用'timeit'模塊來測試各種機制在解析你選擇的源時的執行時間。報告哪一個是最快的。 – larsks

+0

呵呵我想現在我會因爲我不知道多少可以解析性能在x86和x64的變化;) – codersofthedark

回答

1

LXML寫於C.如果你使用的x86這是最好選擇。 如果我們談論技術有XPath和DOM之間沒有大的區別 - 這是非常快的方法。但是,如果您將在BeautifulSoup中使用find或findAll,那麼它將比其他緩慢。 BeautifulSoup是用Python編寫的。這個庫需要大量的內存來解析任何數據,當然,它使用python庫中的標準搜索方法。

+0

說得好,C寫的LIB總是快了很多比純Python模塊。感謝lxml用C編寫的更新。想知道爲什麼你提到x86。它是否像x64一樣可以比lxml表現得更好,如果是,那麼哪一個呢?爲什麼? – codersofthedark

+2

x86或x64在這方面沒有任何區別。我的意思是其他平臺,如SPARC或ARM :) – SkyFox

+0

aaw okies,那不會是我的情況下的問題:) – codersofthedark