我正在尋找能夠登錄平臺,刮取數據(報告)並允許通過API訪問數據的SaaS解決方案。我有一些報告平臺提供網絡報告和電子郵件報告,但沒有API。在線報告無助於電子郵件報告,雖然可以自動化並被刮取,但並不可靠。任何人都知道一個在線工具,可以刮一個頁面,並創建一個REST API的刮取數據?
回答
我做了一些更多的挖掘,發現iMacros作爲一種可能的解決方案。它基於Windows,這是我的缺點,但它確實允許通過common web scripting語言(如PHP和ASP.net)自動執行拼音和事後交互。
我正在嘗試爲Linux尋找替代解決方案。
如果您願意通過自己的連接進行拼湊,請參閱Import IO。他們有一個桌面應用程序,用於教導系統如何刮頁,然後從該應用程序運行爬網程序 - 並且可以根據我的情況儘可能長時間運行它。
然後,您可以通過import.io服務器上的API將數據上傳到導入雲,從導入雲中可以獲取數據。如果您願意,有用的數據可以公開捐贈給「公用」。
這似乎是一個很好的解決方案,但它需要在Windows機器上使用他們的瀏覽器(就像我已經在下面提到的稱爲iMacros的解決方案一樣,我更傾向於SaaS解決方案或基於Linux的解決方案 –
@Roy :看看[我的答案在這裏]結尾(http://stackoverflow.com/a/18998500/472495),那麼他們可能會感興趣。您可以託管託管爬蟲和F/OSS解決方案 – halfer
@RoyPeleg您可以在Linux(以及OS X和Windows)上運行import.io應用程序,這僅用於培訓 - 一旦將其發佈到平臺上,您可以在API上或通過API我的網絡用戶界面(揭祕,我在那裏工作) –
如果您熟悉jQuery,我認爲您可以使用node.js和Cheerio模塊,那麼您可以創建一個簡單的應用程序來執行自動抓取。 其實我已經建立了一個基於上面提到的技術在網上抓取的網站,網站是www.datafiddle.net,你可以看看它。
- 1. 任何人都知道一個好的網絡調試工具?
- 2. 刮:檢查一個頁面是否是個人頁面
- 3. 任何人都知道SQL Server的一個好的數據庫設置工具?
- 4. 任何人都知道一個在線的空白去除器?
- 5. 如何在另一個頁面中包含一個刮表
- 6. 刮一個頁面的所有URL
- 7. 任何人都可以指向一個winforms原型工具嗎?
- 8. 刮一個網頁:Javascript?
- 9. 有沒有人知道一個偉大的工具,從XML數據創建一個線條圖表?
- 10. PHP刮掉一個html頁面
- 11. 刮'下一個'頁面問題
- 12. 用AJAX請求刮一個頁面
- 13. 用AJAX請求刮一個頁面
- 14. 任何人都知道一個體面的免費數據庫架構逆向工程工具?
- 15. 任何人都知道我可以做一個「如果」在鐵軌?
- 16. 如何創建一個數組刮取HTML?
- 17. 任何人都知道一個從Makefile生成點(graphviz)文件的工具嗎?
- 18. Nokogiri-爲每個刮取的結果創建一個散列
- 19. 刮從一個div
- 20. 刮一個網站
- 21. 任何人都知道如何創建一個角落切掉的CSS矩形?
- 22. 刮一個HTML頁面,使之成爲一個JSON對象
- 23. 刮到一個數據幀的HTML表
- 24. 任何人都知道一個好的免費補丁創建者?
- 25. 如何刮下每個主題下的每一個頁面
- 26. 任何人都知道一個很好的CURL包裝可以延伸到PHP?
- 27. 刮多頁在一個網站
- 28. 任何人都知道一個好的JavaScript UI(Widget)庫
- 29. 任何人都可以提供一個REST API列表來查詢elasticsearch嗎?
- 30. 任何人都知道一個好的地址簿實現?
您是否嘗試使用Google搜索屏幕抓取功能?這就是該技術曾經在當天被回撥的...順便說一句,許多網站禁止這種做法。 –
是的。我正在尋找比簡單拼湊更先進的東西。我希望API能夠在事後查詢數據。不用擔心網站,它不會違反任何ToS。 –
有興趣看看是否有人提出了良好的迴應。 –