我正在嘗試配置Lucene/Solr以正確索引來自新聞文章的單詞。由於目前是「開箱即用」使用Solr 3.4 WordDelimitedFilterFactory指標: 她 是 她在Solr中用撇號的單詞進行適當的單詞拆分
,但她會在「她」會成爲她,LL,她和外殼。我絕對不希望這匹配「殼」。這不是預期的詞。
目前我的文字會突破WhitespaceTokenizerFactory,然後StopFilterFactory,然後WodDelimiterFilterFactory設置爲: generateWordParts = 「1」 generateNumberParts = 「1」 catenateWords = 「1」 catenateNumbers = 「1」 catenateAll = 「0」 splitOnCaseChange = 「0」 splitOnNumerics = 「0」 preserveOriginal = 「1」 類型= 「specialtypes.txt」
我試圖說撇號被認爲是在specialtypes.txt字母字符說: ' => ALPHA
但隨後她變成了一個詞,小馬和公司也是如此,這不是我想要的。
任何想法?
在這種情況下你期望什麼:斯嘉麗奧哈拉? – notdang
我想要蟲子來bug和阿諾德成爲阿諾德(英文佔有慾),但我想她會成爲她而不是殼 – Uberbug
對不起@notdang我誤讀了。我希望Scarlet O'Hara成爲完美世界的Ohara – Uberbug