2012-03-02 66 views

回答

8

的boilerpipe網站包含源代碼,快速啓動指令,鏈接到原始科學論文和到相應的會議演示視頻:

http://code.google.com/p/boilerpipe/

這應該給你一個比較全面的一套有關如何工作的信息以及如何在您的方案中應用此信息。

最佳,

基督教

0

我會給htmlcleaner一試。

HTMLCleaner是Java庫,用於安全地解析和轉換Web上發現的任何HTML到格式良好的XML。它設計的小巧,快速,靈活和獨立。 HtmlCleaner可用於Java代碼,命令行工具或Ant任務。解析結果是輕量級的文檔對象模型,可以很容易地轉換爲DOM或JDom等標準,或以各種方式(緊湊,漂亮打印等)序列化爲XML輸出。

您可以使用XPath與htmlcleaner得到XML中的內容/ HTML tags.Here是一個很好的
例如Xpath Example

2

我們嘗試了很多開源爬蟲,像可讀性,對於同樣的美麗的湯等,但在測試Diffbot API後,我們決定用它來AppMarkt。它快速並從各種語言中很好地提取新聞文章。