使用Solr和Hadoop進行文本挖掘

我有一個包含大約100m文檔的Solr數據庫。我想要發掘這些文件。使用Solr和Hadoop進行文本挖掘

我正在考慮在javacode中製作文本挖掘模塊。然後在Hadoop集羣上運行jar。（模塊的輸出可以存儲在solr中。）

我是Hadoop和Solr的新手。我想知道，這可能嗎？和/或有沒有更好的方法來文本挖掘文件？

關於這種情況的任何想法，真的會幫助我很多。

2013-10-18 Nannie

您是否需要頻繁訪問文檔？

如果您需要訪問大文檔，則可以使用SolrCloud。分片和複製結構可以處理高負載。

存儲到Solr的json/xml很容易。

2013-10-18 08:49:05

是的，文件訪問頻繁。目前存儲在Solr雲中。這是因爲它需要搜索所有文檔。但我還需要分析/文本挖掘這些文件。這是一個CPU密集型的事情。所以我正在考慮使用Hadoop集羣。 – Nannie

檢查Mahout庫，然後再使用完全自定義的代碼;它有一個Lucene驅動程序，並且在大多數情況下它與Hadoop集成在一起。大多數情況下，您需要使用術語向量才能使用Mahout進行挖掘。一旦擁有它 - 這是一個相當無縫的設置。

2013-10-19 17:49:01 lexk

回答