2012-09-03 64 views
0

如果一個Lucene ShingleFilter可以用來標記化一個字符串轉換成帶狀皰疹,或n元語法,不同的尺寸,例如:使用一個Lucene ShingleFilter提取雙字母組的頻率中的Lucene

"please divide this sentence into shingles" 

變爲:

shingles "please divide", "divide this", "this sentence", "sentence into", and "into shingles" 

有誰知道這是否可以與其他分析儀結合使用,以返回找到的二元語法或卦的頻率,例如:

"please divide this please divide sentence into shingles" 

會爲「請鴻溝」返回2?

我要補充,我的琴絃是從數據庫建立起來,然後在內存中的Lucene索引並不會保留。其他產品如Solr的使用並不打算。

回答

0

我結束了通過我snowballAnalyzer和standardAnalyzers作爲參數ShingleFilterWrappers和處理所述輸出經由TermVectorMapper。