我遇到了一種情況,即使用Cassandra for DB,我需要全文搜索功能。 現在我知道Apache Solr,Apache Cassandra和DSE搜索。存儲在Cassandra中的自定義全文索引
但是,我不想使用昂貴的專有軟件(DSE搜索)。我不想使用Apache Solr的原因是因爲我不想處理HA,分片和redundency。 Cassandra對於HA,分片和重組而言是完美的;我想將我的全文索引存儲在現有的Cassandra DB中。
所以我在尋找的東西,將打破一個字符串到其可轉位部分。例如:
String input = "I like apples and bannanas.";
String tokens[] = makeTokenIndex(input);
//tokens = {"I","like","apples","bannanas","apple","bannana"}
很明顯,我可以在空格上拆分字符串,並將這些單詞用作索引鍵。但我在尋找比這更聰明的東西。一些可以處理複數,找到一個詞的根,等等......
會修改Apache Lucene是最好的解決方案嗎?還是有另一種選擇?