2014-02-19 25 views

回答

1

使用你所知道的。找到當前首選語言的庫進行抓取/抓取,然後只在遇到瓶頸時才優化爲新語言。

如果你使用Python,那麼stdlib有足夠的HTML文本提取基本的東西,然後如果你需要更多的複雜性,試試beautifulsoup(注意:使用bs4,它比bs3更好)。

理想情況下,您應該在後臺進行抓取/抓取,並將緩存以某種方式寫入本地數據庫。說MariaSql,Postgres,Sqlite(高達一百多頁)或NoSQL解決方案之一。

如果你這樣做,並且你存儲的格式是合理標準的,那麼你可以很容易地替換代碼或稍後使用的語言。

然後,您可以將任何您喜歡的任何內容(php,python,無論如何)都保留在前端Web代碼中,然後交換新的更高效的後端爬網程序。如果你需要它。