2011-01-08 71 views
0

大家新年快樂,現在我正在嘗試開發自己的機器人(web crawler),它將通過互聯網,搜索引擎走動。我想使用JBoss的調度服務調度機器人和這樣的事情來獲得內容:哪個jBoss和EJB3功能應該用於Web爬蟲

URL u = new URL("http://www.google.kz"); 
    InputStream in = u.openStream(); 

我想問一下我應該使用EJB3或JBoss的功能有效地開發(以正確的方式)我的機器人? 我是EJB3和jBoss的新手。

如果你有更好的想法,你可以正確這兒過得正在開發的搜索引擎來練習我的Java技能和跑位的問題,我不打算與谷歌競爭:)

  • 的jboss-5.1。 0.GA
  • XP
  • EJB3
  • Eclipse的赫利俄斯

PS我沒有決定我將如何解析HTML,我正在考慮這樣的事情Parse HTML。你能推薦什麼?

+0

@ Bohzo的權利,這些都不是你想要做的事情的相關技術。他們不會阻撓你,但是他們對你也沒什麼用處。 – skaffman 2011-01-09 00:18:50

回答

2

根本不需要EJB或JBoss。實際上,我幾乎想不起它們用於網絡爬蟲。只有當您使用JPA來存儲抓取結果時,纔可以使用容器管理的事務以及自動注入JPA實體管理器。除此之外 - 不。

+0

謝謝,我是EJB和jBoss的新手,雖然有一些功能可以幫助完成此任務。但我會等待其他答案。 – 2011-01-08 23:37:03