我的應用程序當前通過從遠程機器通過共享磁盤複製文件系統樹來讀取數據,所以它從應用程序的角度作爲文件系統深層複製工作。Java爬蟲庫 - 使用目錄列表解析器下載遞歸HTTP子樹
此解決方案有點限制,我還想通過http支持第二個選項 - 複製子樹。
圖書館應該做一些像wget --recursive
這樣的解析目錄列表並使用它遍歷樹。
我找不到任何這樣做的Java庫。
我能夠自己實現這樣的功能(使用NekoHTML或類似的東西),但我不喜歡重新發明輪子。
是否有這樣的庫,我可以在我的應用程序內容易使用?
理想:
- 發表在Maven的中央倉庫,因爲我使用Maven爲構建
- 與其他圖書館儘可能少依賴儘可能
- 不需要機器人排除支持 - 將在有限的操作僅限臨時服務器組
謝謝。
注意:請張貼指向您個人使用的圖書館的主頁的指針。
你有沒有找到解決方案? –
不幸的是:( –