2013-12-12 47 views
2

我遇到了一種情況,即使用Cassandra for DB,我需要全文搜索功能。 現在我知道Apache Solr,Apache Cassandra和DSE搜索。存儲在Cassandra中的自定義全文索引

但是,我不想使用昂貴的專有軟件(DSE搜索)。我不想使用Apache Solr的原因是因爲我不想處理HA,分片和redundency。 Cassandra對於HA,分片和重組而言是完美的;我想將我的全文索引存儲在現有的Cassandra DB中。

所以我在尋找的東西,將打破一個字符串到其可轉位部分。例如:

String input = "I like apples and bannanas.";

String tokens[] = makeTokenIndex(input); 

//tokens = {"I","like","apples","bannanas","apple","bannana"} 

很明顯,我可以在空格上拆分字符串,並將這些單詞用作索引鍵。但我在尋找比這更聰明的東西。一些可以處理複數,找到一個詞的根,等等......

會修改Apache Lucene是最好的解決方案嗎?還是有另一種選擇?

回答

0

我沒有使用Cassandra,但我想你正在談論使用Lucene的Directory接口的Cassandra實現。 Lucene使用目錄與存儲機制進行交互。

我發現一對夫婦的項目,可以幫助:

我不能左右任何一個經驗之談,雖然。

相關問題