web-crawler

5熱度

4回答

我想開發一個使用Erlang，Mnesia & Yaws的網絡搜索引擎。是否有可能使用這些軟件製作功能強大且速度最快的網絡搜索引擎？它需要做什麼來完成這個任務，以及我如何開始？

11熱度

9回答

我剛開始考慮今天創建/定製網絡爬蟲，並且對網絡爬蟲/機器人禮儀知之甚少。我發現的大部分禮儀文章看起來都很老舊，很尷尬，所以我想從網絡開發者社區獲得一些當前（和實用）的見解。我想使用爬蟲遍歷「網絡」以實現超級簡單的目的 - 「網站XYZ的標記是否滿足條件ABC？」。這引發了很多問題要問我，但我想我需要走出的第一方式的兩個主要問題是：感覺有點「玄乎」從一開始走 - 這種事情是可以接受的嗎？抓取

2熱度

1回答

是否有一個搜索引擎，包括索引bot，可以通過向bot提供某些屬性來構成特殊目錄？

我們的應用程序（C＃/。NET）需要大量的查詢來搜索。 Google每天的50,000條政策是不夠的。我們需要通過我們設置的特定規則（例如國家/地區域）來抓取互聯網網站，並收集網址，文本，關鍵字和網站名稱，並創建我們自己的內部目錄，這樣我們就不會受限於任何大規模的外部搜索引擎像谷歌或雅虎。有沒有免費的開源解決方案可以用來在我們的服務器上安裝？重新發明車輪沒有意義。

8熱度

2回答

HttpBrowserCapabilities.Crawler屬性.NET

HttpBrowserCapabilities.Crawler屬性（http://msdn.microsoft.com/en-us/library/aa332775(VS.71).aspx）如何工作？我需要檢測合作伙伴的自定義爬蟲，並且此屬性返回false。 Where /如何添加他的用戶代理，以便該屬性返回true？除了創建我自己的用戶代理檢測機制之外的任何其他方式？

14熱度

6回答

我可以阻止Apache Web服務器上每個站點的搜索爬蟲嗎？

我在公共互聯網上有一些臨時服務器，運行一些網站的生產代碼的副本。如果分期網站獲得索引，我真的不喜歡它。有沒有一種方法可以修改登臺服務器上的httpd.conf以阻止搜索引擎爬蟲？因爲我使用腳本將相同的代碼庫複製到兩臺服務器，所以更改robots.txt並不會真正起作用。另外，我寧願不更改虛擬主機conf文件，因爲有很多網站，如果我創建新網站，我不想記得複製某個設置。

18熱度

5回答

如何設置一個只允許網站默認頁面的robot.txt

假設我有一個網站http://example.com。我真的想讓機器人看到主頁，但任何其他頁面都需要封鎖，因爲它對蜘蛛毫無意義。換句話說 http://example.com & http://example.com/應該被允許，但 http://example.com/anything和http://example.com/someendpoint.aspx應該被阻止。而且這將是巨大的，如果我

0熱度

4回答

將asp.net動態網站轉換爲靜態網站的工具

是否有任何工具可以蜘蛛網站並創建靜態網站？

7熱度

5回答

.NET沒有可靠的異步套接字通信？

我曾經在.NET中寫過一個Crawler。爲了提高可伸縮性，我試圖利用.NET的異步API。 System.Net.HttpWebRequest具有異步API BeginGetResponse/EndGetResponse。但是，這對API只是獲取HTTP響應頭文件和Stream實例，我們可以從中提取HTTP響應內容。所以，我的策略是使用BeginGetResponse/EndGetRespons

168熱度

4回答

保持rsync刪除未完成的源文件

我有兩臺機器，速度和質量。速度有一個快速的互聯網連接，並運行一個抓取器，它將大量文件下載到磁盤。質量有很多磁盤空間。我想在完成下載後將文件從速度轉移到大量文件。理想情況下，我只是運行： $ rsync --remove-source-files speed:/var/crawldir . 但我擔心rsync將取消尚未完成下載的源文件的鏈接。（我查看了源代碼，但沒有看到任何保護措施。）有什麼建

7熱度

5回答

你如何將一個動態站點變成一個可以從CD演示的靜態站點？

我需要找到一種方法來抓取我們公司的一個Web應用程序，並從中創建一個靜態網站，該網站可以刻錄成CD，供旅遊銷售人員用來演示網站。後端數據存儲分佈在許多系統中，因此僅僅在銷售人員的筆記本電腦上的虛擬機上運行該站點將不起作用。他們不會在某些客戶端訪問互聯網（沒有互聯網，手機......原始人，我知道）。有沒有人有任何可以處理鏈接清理，flash，ajax，css等的抓取工具的好建議？我知道賠率很渺茫