2013-10-28 30 views
2

我正在尋找能夠登錄平臺,刮取數據(報告)並允許通過API訪問數據的SaaS解決方案。我有一些報告平臺提供網絡報告和電子郵件報告,但沒有API。在線報告無助於電子郵件報告,雖然可以自動化並被刮取,但並不可靠。任何人都知道一個在線工具,可以刮一個頁面,並創建一個REST API的刮取數據?

+0

您是否嘗試使用Google搜索屏幕抓取功能?這就是該技術曾經在當天被回撥的...順便說一句,許多網站禁止這種做法。 –

+0

是的。我正在尋找比簡單拼湊更先進的東西。我希望API能夠在事後查詢數據。不用擔心網站,它不會違反任何ToS。 –

+0

有興趣看看是否有人提出了良好的迴應。 –

回答

0

我做了一些更多的挖掘,發現iMacros作爲一種可能的解決方案。它基於Windows,這是我的缺點,但它確實允許通過common web scripting語言(如PHP和ASP.net)自動執行拼音和事後交互。

我正在嘗試爲Linux尋找替代解決方案。

9

如果您願意通過自己的連接進行拼湊,請參閱Import IO。他們有一個桌面應用程序,用於教導系統如何刮頁,然後從該應用程序運行爬網程序 - 並且可以根據我的情況儘可能長時間運行它。

然後,您可以通過import.io服務器上的API將數據上傳到導入雲,從導入雲中可以獲取數據。如果您願意,有用的數據可以公開捐贈給「公用」。

+0

這似乎是一個很好的解決方案,但它需要在Windows機器上使用他們的瀏覽器(就像我已經在下面提到的稱爲iMacros的解決方案一樣,我更傾向於SaaS解決方案或基於Linux的解決方案 –

+0

@Roy :看看[我的答案在這裏]結尾(http://stackoverflow.com/a/18998500/472495),那麼他們可能會感興趣。您可以託管託管爬蟲和F/OSS解決方案 – halfer

+3

@RoyPeleg您可以在Linux(以及OS X和Windows)上運行import.io應用程序,這僅用於培訓 - 一旦將其發佈到平臺上,您可以在API上或通過API我的網絡用戶界面(揭祕,我在那裏工作) –

0

如果您熟悉jQuery,我認爲您可以使用node.js和Cheerio模塊,那麼您可以創建一個簡單的應用程序來執行自動抓取。 其實我已經建立了一個基於上面提到的技術在網上抓取的網站,網站是www.datafiddle.net,你可以看看它。

相關問題