2010-11-11 49 views
2

我要開始我的文章提取工作。從網頁中提取通用文章

,我會做的任務是提取的酒店點評被張貼在不同的網頁(例如1 http://www.tripadvisor.ca/Hotel_Review-g32643-d1097955-Reviews-San_Mateo_County_Memorial_Park_Campground-Loma_Mar_California.html,2 http://www.travelpod.com/hotel/Comfort_Suites_Sfo_Airport-San_Mateo.html

我需要做Java中的任務,我只是使用Java在過去的幾個單獨幾個月..

這裏來我就這些問題。

  1. 是否有可能以通用的方式從不同的網頁中單獨提取評論。

  2. 請讓我知道,如果有一個支持Java中的任務的任何API。

  3. 而且,讓我知道你的想法/來源,這將是更有利於我實現上述任務。

UPDATE

如果任何形式的淨提供相關的例子,請張貼相同的,因爲這可能是很有用處的。

回答

4

你可能需要一個屏幕抓取工具爲Java像TagSoupNekoHTMLJSoup也很受歡迎。

不過,也有更大的法律思考這裏從第三方網站像到到網提取數據時。他們的政策是否允許?

+0

感謝您的實用建議..關於法定權利,我將與我的管理層討論! – LGAP 2010-11-11 09:09:41