我知道如何使用Python解析的頁面。我的問題是哪個是所有解析技術中最快的方法,它與其他方法的速度有多快?Xpath的VS DOM VS BeautifulSoup VS LXML VS另一類則是解析網頁最快的方法?
的解析技術,我知道是Xpath的,DOM,BeautifulSoup,並使用Python的find
方法。
我知道如何使用Python解析的頁面。我的問題是哪個是所有解析技術中最快的方法,它與其他方法的速度有多快?Xpath的VS DOM VS BeautifulSoup VS LXML VS另一類則是解析網頁最快的方法?
的解析技術,我知道是Xpath的,DOM,BeautifulSoup,並使用Python的find
方法。
所以它似乎lxml是所有最快的,現在我得到它爲什麼IBM建議lxml。尼斯thanx :) – codersofthedark
LXML寫於C.如果你使用的x86這是最好選擇。 如果我們談論技術有XPath和DOM之間沒有大的區別 - 這是非常快的方法。但是,如果您將在BeautifulSoup中使用find或findAll,那麼它將比其他緩慢。 BeautifulSoup是用Python編寫的。這個庫需要大量的內存來解析任何數據,當然,它使用python庫中的標準搜索方法。
說得好,C寫的LIB總是快了很多比純Python模塊。感謝lxml用C編寫的更新。想知道爲什麼你提到x86。它是否像x64一樣可以比lxml表現得更好,如果是,那麼哪一個呢?爲什麼? – codersofthedark
x86或x64在這方面沒有任何區別。我的意思是其他平臺,如SPARC或ARM :) – SkyFox
aaw okies,那不會是我的情況下的問題:) – codersofthedark
選擇一個網頁。使用'timeit'模塊來測試各種機制在解析你選擇的源時的執行時間。報告哪一個是最快的。 – larsks
呵呵我想現在我會因爲我不知道多少可以解析性能在x86和x64的變化;) – codersofthedark