0
我正在創建一個建議鏈接爲一個類別的新網站。我需要快速掃描不同的網頁。我應該使用哪種語言來創建高效的網絡爬蟲?最有效的語言來創建一個非常快速的網絡爬蟲?
我正在創建一個建議鏈接爲一個類別的新網站。我需要快速掃描不同的網頁。我應該使用哪種語言來創建高效的網絡爬蟲?最有效的語言來創建一個非常快速的網絡爬蟲?
使用你所知道的。找到當前首選語言的庫進行抓取/抓取,然後只在遇到瓶頸時才優化爲新語言。
如果你使用Python,那麼stdlib有足夠的HTML文本提取基本的東西,然後如果你需要更多的複雜性,試試beautifulsoup(注意:使用bs4,它比bs3更好)。
理想情況下,您應該在後臺進行抓取/抓取,並將緩存以某種方式寫入本地數據庫。說MariaSql,Postgres,Sqlite(高達一百多頁)或NoSQL解決方案之一。
如果你這樣做,並且你存儲的格式是合理標準的,那麼你可以很容易地替換代碼或稍後使用的語言。
然後,您可以將任何您喜歡的任何內容(php,python,無論如何)都保留在前端Web代碼中,然後交換新的更高效的後端爬網程序。如果你需要它。
高效的是什麼意思?爲你還是電腦? – thkala