0
我正在使用Java創建Web爬蟲程序。爬蟲訪問網站,使用JDBC訪問/存儲數據庫中的數據,並將文件存儲在本地或雲存儲中。java--庫/方法,用於跟蹤在運行java應用程序時使用的帶寬和其他參數
隨着爬行的一部分,我要指出的使用的具體細節爲crawler--
參數like--
Number of sites visited (HTTP+HTTPS)
Number of bytes of data received over one run of the crawler
Number of bytes of data sent over one run of the crawler
Number of rows updated/inserted/deleted/selected via JDBC over that run of the crawler
Number of bytes of data stored+accessed in local machine (on which the crawler is running)
Number of bytes of data stored+accessed in cloud storage (like Amazon S3)
有沒有什麼快捷的方式來完成部分或全部以上?也許一些圖書館必須插入到我的Java應用程序?當爬蟲執行一些操作(如訪問網站,下載數據等)時,是否需要在每個階段單獨記錄所有上述參數?我不希望程序因爲我想測量和跟蹤上述參數而陷入困境。
我期待用履帶,既是一個桌面應用程序和Web應用程序,所以對於這兩種解決方案,歡迎...