2013-10-18 78 views
1

我有一個包含大約100m文檔的Solr數據庫。我想要發掘這些文件。使用Solr和Hadoop進行文本挖掘

我正在考慮在javacode中製作文本挖掘模塊。然後在Hadoop集羣上運行jar。 (模塊的輸出可以存儲在solr中。)

我是Hadoop和Solr的新手。我想知道,這可能嗎?和/或有沒有更好的方法來文本挖掘文件?

關於這種情況的任何想法,真的會幫助我很多。

回答

0

您是否需要頻繁訪問文檔?

如果您需要訪問大文檔,則可以使用SolrCloud。分片和複製結構可以處理高負載。

存儲到Solr的json/xml很容易。

+0

是的,文件訪問頻繁。目前存儲在Solr雲中。這是因爲它需要搜索所有文檔。 但我還需要分析/文本挖掘這些文件。這是一個CPU密集型的事情。所以我正在考慮使用Hadoop集羣。 – Nannie

0

檢查Mahout庫,然後再使用完全自定義的代碼;它有一個Lucene驅動程序,並且在大多數情況下它與Hadoop集成在一起。 大多數情況下,您需要使用術語向量才能使用Mahout進行挖掘。一旦擁有它 - 這是一個相當無縫的設置。