我想通過REST API構建Python/JS Web服務。Python或基於JS的REST API用於Web抓取
我的情況如下:在我的網站上的一個按鈕
- 用戶點擊
- 我的網站發送一個HTTP請求到REST API
- 網頁抓取發生在服務器端(使用Python或Node)。第三方網站上的數據動態加載。
- 結果以JSON格式發送回我的網站被顯示給用戶
我查了一些Python的託管服務。我不知道他們是否支持硒。 JS庫和NodeJS主機也一樣。
基本上,我很困惑。我應該如何使用我的項目並抓取動態數據? Python與硒?有PhantomJS和Cheerio的NodeJS?
@Ahmad,謝謝你的回答。你是對的。我必須具體。我在項目中已經使用PhantomJS(節點騎士)和Cheerio,但我也認爲可擴展性對我來說是最大的混亂。 JS現在應該可以正常工作,但爲什麼你認爲Python解決方案可以更好地擴展? (我應該考慮長期)。另外,作爲另一個問題,網站可以輕鬆檢測瀏覽器。在Phantom的情況下,我看到了不受支持的瀏覽器消息(通過截圖)。你有沒有聽說幻影的任何問題(在被網站封鎖的情況下)? –
這不是關於Python解決方案的縮放比較好,這是關於JavaScript解決方案可能會非常快速地搞亂,除了節點js還很年輕,它沒有像numpy和pandas這樣的庫,這是我在開發數據時考慮的-科學項目。沒有我沒有聽說Phantom的問題,但是您的網站可能會使用某些瀏覽器不支持的javascript功能,在這種情況下,我建議** chromedriver **,因爲幾乎所有網站都支持Chrome。但是你將不得不面對在頁面內執行腳本的問題。 –