我有一個項目是關於爬行ae商業網站,其中有近15000的產品,我無法計數,但近25萬頁。我用c#寫了一個程序,使用多線程,總共我用了20個線程。但是當我只用了5個線程時沒有高性能。我錯了?抓取時不能增加它?可以在一小時內使用多線程在c#編程中使用sql server來檢索多少頁?
我測試我抓取500頁,並採取他們的HTML十分貝minus。這是正常的嗎?或者我可以增加它?
此外,SQL服務器可以用於20個線程併發插入,更新操作,但是當我將該線程數增加到100個線程時,我會遇到問題嗎?
我計算完全現場過程將需要5小時10線程。我需要幫助降低這一時期..或者是正常的..我不希望使用更多的電腦...
我PC細節是2 GB RAM,1.87 GHz的英特爾T2130 ...
我檢查了我的CPU是90%,我爬從互聯網網站,我的內存是75%,並且每個第二程序運行時,我每秒需要70 kb。如何提高抓取速度?
太多的變量可以可靠地回答這個問題。 WebRequests僅限於(我認爲)每個域6個併發。可能是一個開始的好地方。 – spender