2011-10-12 20 views
0

我正在ASP.net和C#中構建一個網站,其中一個組件涉及登錄到用戶擁有帳戶的網站(例如蜂窩電話公司)代表用戶,從本網站獲取信息並將其存儲在我們的數據庫中。需要幫助建立一個從HTTP請求中提取數據的「機器人」

我覺得這個動作叫「刮」。

是否有任何產品已經可以用來與我的軟件集成?

我不需要一個可以實現它的軟件,我需要某種可以與我的C#代碼集成的SDK。

感謝,

Koby

+8

檢測到零研究。 – Andrey

+0

嘗試[Selenium](http://seleniumhq.org/download/)。不過,您需要一個交互式桌面來運行瀏覽器,因此可能不容易將其設置爲服務。 – Rup

+0

安德烈 - 實際上發佈這個問題是研究的一部分。如果有人願意分享他們的知識,爲什麼不使用他人的經驗呢?這是本網站的全部內容。相信與否,我正在做一項研究。 –

回答

2

使用HtmlAgilityPack解析您從一個Web請求獲取一旦你登錄的HTML。

看到這裏伐木:Login to website, via C#

+0

謝謝喬治。登錄網站部分真的是我缺少的部分。 –

1

我還沒有發現任何產品,會做正確爲止。
一個處理這種方式是
- 做你自己
請求 - 使用http://htmlagilitypack.codeplex.com/從下載的HTML
提取重要信息 - 通過你的自我保存提取的信息

事情是,根據上下文,有這麼多的事情來調整/配置,你需要非常大的產品,仍然不會達到定製的解決方案的性能/精度:
一)多線程控制
二)提取規則
C)持久性控制
d)網絡蜘蛛(或下一個鏈接如何分析選擇)

0

檢查Web Scraping Wikipedia Entry

但是我會說,因爲我們需要通過網絡抓取獲取的應用程序特定的,大多數情況下,從Web響應流中抓取任何您需要的東西可能會更高效。