2013-03-27 89 views
0

我需要在Java中開發一個應用程序,該程序能夠通過僅考慮一些特定的過濾條件(例如,包括文本,文本等)來查找Web上可用的文檔(HTML,.doc,.pdf等)域名等),然後全部下載。搜索和檢索在線文檔

這是最好的方法嗎?我應該使用這樣的庫(例如Guava?)還是已經提供這些功能的工具?

我知道有很多庫(Apache Solr,Apache Nutch等),但我不確定他們能完成我所有的任務。

回答

0

Apache Nutch應該幫助你瞭解我所瞭解的內容。 Thisallenday's post應該幫助你的Java代碼。一些關於nutch的讀物肯定會有所幫助。