2
我有一個固定的結構良好的html源碼,傳入的數據是清晰和小的,只是包含一個小的div列表。我知道使用html解析器進行html解析,但這看起來像一個特定的案例,我不知道我應該使用哪一個。下面Html解析與正則表達式
- 數據的問題情況清晰,結構良好
- 數據是小
- 性能問題,應用程序必須能夠得到儘可能多的,因爲這是possibble
- 應用程序將數據寫入到MongoDB的數據數據庫
- 實現編程語言將是斯卡拉或Python
任何意見是有價值有啥我應該怎麼做?
我知道什麼我不應該使用正則表達式來解析HTML,我知道什麼是正則表達式,它實現時會轉變什麼,是的,我也有自動機課,大部分原因都是關於html不穩定的structres和大量的數據,這是不正確的對於我們的案例,我們有一個很好的結構和小數據來處理。所以,我感謝你的回答,但我認爲這不是我們正在尋找的。 – 2014-10-11 20:59:36
@HüseyinZengin謝謝。很難說沒有看到你有什麼樣的數據,有多少數據以及你需要從中解析出哪些數據。我想你最好的選擇是自己衡量表現。例如,使用'lxml'和'regex'-only方法來實現它並對其進行基準測試。 – alecxe 2014-10-11 21:02:11