2013-06-19 90 views
0

我有一個Solr數據庫快照。數據庫是已發佈博客文章的存檔(加上每篇文章的一堆元數據)。快照是成千上萬的帖子。從Solr快照獲取原始文本文件?

我想在帖子上運行一些機器學習算法和主題建模。所以我不需要數據庫本身,我只想以一些簡單的形式獲取帖子的原始文本和元數據。任何人都可以告訴我如何打開或提取信息,而無需實際安裝Solr?

回答

0

我想你的Solr索引是指Solr數據庫快照。
Solr索引基本上是一個lucene索引,您可以使用Lucene apis來讀取索引並從字段中提取數據。
這不需要安裝Solr。

+0

感謝您的迴應!我會看看Lucene。 – ACPrice