2012-12-13 325 views
0

我正在尋找一種非常耗時的自動化任務的方法。我們有製造商名稱和產品編號,我們在網上搜索,找到既有信息的網站,也有搜索製造商或供應商的網站,並使用鏈接上的信息來填充我們數據庫中的相關字段。使用vb.net的網絡爬蟲/蜘蛛

手動搜索過程會消耗大量時間,我在尋找的是一個可以將名稱和產品#作爲輸入發送到網絡並搜索與輸入相匹配的網站並轉儲這些鏈接的工具。

任何人都可以幫助我!

+0

只是製造商名稱和產品標識的例子: 「AJAX TOCCO MAGNETHERMIC」\t「6641-0158-001 RSB」 – user1688170

回答

1

你試圖達到的目標需要相當多的工作,恐怕你沒有提供足夠的信息讓我深入細節。然而,在broadlines,一個簡單的爬行算法需要以下步驟:

  • 爲所需的URL創建HttpWebRequest一個實例。如果您需要執行POST請求,請使用GetRequestStream()方法來填充正文。
  • 請求GetResponse()請求獲取服務器的響應。使用GetResponseStream()從響應中讀取HTML標記;
  • 使用HtmlAgilityPack來遍歷DOM節點並選擇所需的數據。
  • 使用Fiddler查看大約發送的內容和您的應用程序發送的內容之間的區別。
  • 最後但並非最不重要的,你應該遇到自己解決不了或者不知道答案的一個問題 - 你已經知道如何使用StackOverflow :)
+0

感謝您的迴應,但是我對.net是新手,如果您能爲我提供一個使用示例,這將是一個很好的起點。 – user1688170

+0

如果你可以指導我如何在這裏添加文件,以便我可以分享我正在尋找的示例 – user1688170

+0

@ user1688170,我不知道如何在StackOverflow上上傳文件。我準備了一個演示爬蟲作爲您的項目的起點,但我不知道要在哪裏上傳文件......此外,該項目是在C#中。 – RePierre