2012-01-01 43 views
-3

我想問什麼語言:編程Webcrawler的最佳服務器語言是什麼?

ASP.NET /紅寶石/ CGI /的Perl/Python的/ ColdFusion的...

將是編程的WebCrawler

和百世處理包含的信息?

(它應該被用於數據挖掘)

最快在運行時?最容易寫嗎?最容易維護? < <

感謝

+1

CGI不是一種語言,AFAIK。 – 2012-01-01 14:54:31

+0

網絡爬蟲與服務器無關。 – SLaks 2012-01-01 14:54:53

+0

如果有一種最好的語言,爲什麼您認爲有不同語言的網頁抓取工具?讓我回答:因爲寫作web爬行器的最佳語言並不存在。 – 2012-01-01 14:56:29

回答

4

最好的語言爲您

  • 熟悉到你的語言。 (學習新的語言是好的,但網絡爬蟲是第一個項目的複雜目標)
  • 有一些HTTP客戶端庫(因爲爬蟲是一個HTTP客戶端)。
  • 莫名其妙高效,因爲履帶會長時間運行
  • 莫名其妙穩健,因爲你不希望它崩潰太容易

我建議你在ocaml的代碼ocamlnet,但你可能不熟悉它,所以你要麼需要時間來學習它,要麼採取別的。

2

沒有 「最好」 的語言編程的WebCrawler。你唯一需要考慮的是你需要一個多功能語言來處理一個非web項目。

儘管爬蟲程序用於處理網頁,但不是網站。

+0

那麼我可以使用ColdFusion嗎?事情是我想僱用一個人,但我首先需要知道我需要什麼樣的「專家」! – 2012-01-01 15:07:45

+0

您需要網絡爬行方面的專家。留給他編程語言的選擇。確保他熟悉HTTP和HTML(PHP並不重要,ColdFusion也沒有;因爲兩者都用於編程Web服務器,而爬蟲不是Web服務器,而是Web客戶端!)。 – 2012-01-01 15:13:07

0

Perl有一個名爲LWP的模塊,我發現它在網絡爬行時非常有用。

http://metacpan.org/pod/LWP

而且,通常發生在爬行網站(和你提到數據挖掘),你想湊或得到一些類型的數據。 Perl對此很有意義,因爲它是一種內置正則表達式的語言(對於匹配文本/數據可能非常有用)。

總而言之,您可以真正使用任何語言來抓取/挖掘數據。就語言語法以及語言提供的用於抓取/匹配數據的HTTP庫而言,這只是您的偏好。