2012-06-28 30 views
0

我正在使用Java創建Web爬蟲程序。爬蟲訪問網站,使用JDBC訪問/存儲數據庫中的數據,並將文件存儲在本地或雲存儲中。java--庫/方法,用於跟蹤在運行java應用程序時使用的帶寬和其他參數

隨着爬行的一部分,我要指出的使用的具體細節爲crawler--

參數like--

Number of sites visited (HTTP+HTTPS) 
Number of bytes of data received over one run of the crawler 
Number of bytes of data sent over one run of the crawler 
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler 
Number of bytes of data stored+accessed in local machine (on which the crawler is running) 
Number of bytes of data stored+accessed in cloud storage (like Amazon S3) 

有沒有什麼快捷的方式來完成部分或全部以上?也許一些圖書館必須插入到我的Java應用程序?當爬蟲執行一些操作(如訪問網站,下載數據等)時,是否需要在每個階段單獨記錄所有上述參數?我不希望程序因爲我想測量和跟蹤上述參數而陷入困境。

我期待用履帶,既是一個桌面應用程序和Web應用程序,所以對於這兩種解決方案,歡迎...

回答

1

我將在每一個階段逐一記下所有的上述參數當抓取工具執行某些操作(如訪問網站,下載數據等)?

是的。

您正在爲您的應用程序創建的全局統計類中的整數或長整型值添加數字。你的程序不應該陷入執行加法。

相關問題