爲法語和編程語言選擇良好的分析器

我正在研究搜索引擎（Java J2ee，Hibernate，Hibernate Search和Lucene）。我分析文檔內容。我所有的系統都可以，但一個問題是持續存在的。分析儀的選擇！爲法語和編程語言選擇良好的分析器

我的文件是法文的，因爲這些研究都是法文的，所以這很重要。但我的搜索引擎應該能夠搜索像編程語言名稱（Java，COBOL，C，C＃，C++，....）

我現在使用的是Lucene的法語分析器，問題是條款「C」，「C++」，「C＃」的請求結果。我想有：[「C」或「C++」或「C＃」] =>「C」但我有=>「」我真的是這些技術的新手，我想知道應該使用哪個分析儀或者是否需要實施特定分析儀。

（我使用hibernate搜索3.0.0.GA（這是非常舊的...），我無法更改版本）。

Thanxs

來源

2014-05-13 user3327940

見FrenchAnalyzer.FRENCH_STOP_WORDS，「C」是法國停用詞。您可以通過相應的FrenchAnalyzer constructor定義您自己的停止設置。

您可以從默認設置開始，並在定義自己的時候刪除不需要的停用詞。完全默認法語停止設置是：

"a", "afin", "ai", "ainsi", "après", "attendu", "au", "aujourd", "auquel", "aussi", 
"autre", "autres", "aux", "auxquelles", "auxquels", "avait", "avant", "avec", "avoir", 
"c", "car", "ce", "ceci", "cela", "celle", "celles", "celui", "cependant", "certain", 
"certaine", "certaines", "certains", "ces", "cet", "cette", "ceux", "chez", "ci", 
"combien", "comme", "comment", "concernant", "contre", "d", "dans", "de", "debout", 
"dedans", "dehors", "delà", "depuis", "derrière", "des", "désormais", "desquelles", 
"desquels", "dessous", "dessus", "devant", "devers", "devra", "divers", "diverse", 
"diverses", "doit", "donc", "dont", "du", "duquel", "durant", "dès", "elle", "elles", 
"en", "entre", "environ", "est", "et", "etc", "etre", "eu", "eux", "excepté", "hormis", 
"hors", "hélas", "hui", "il", "ils", "j", "je", "jusqu", "jusque", "l", "la", "laquelle", 
"le", "lequel", "les", "lesquelles", "lesquels", "leur", "leurs", "lorsque", "lui", "là", 
"ma", "mais", "malgré", "me", "merci", "mes", "mien", "mienne", "miennes", "miens", "moi", 
"moins", "mon", "moyennant", "même", "mêmes", "n", "ne", "ni", "non", "nos", "notre", 
"nous", "néanmoins", "nôtre", "nôtres", "on", "ont", "ou", "outre", "où", "par", "parmi", 
"partant", "pas", "passé", "pendant", "plein", "plus", "plusieurs", "pour", "pourquoi", 
"proche", "près", "puisque", "qu", "quand", "que", "quel", "quelle", "quelles", "quels", 
"qui", "quoi", "quoique", "revoici", "revoilà", "s", "sa", "sans", "sauf", "se", "selon", 
"seront", "ses", "si", "sien", "sienne", "siennes", "siens", "sinon", "soi", "soit", 
"son", "sont", "sous", "suivant", "sur", "ta", "te", "tes", "tien", "tienne", "tiennes", 
"tiens", "toi", "ton", "tous", "tout", "toute", "toutes", "tu", "un", "une", "va", "vers", 
"voici", "voilà", "vos", "votre", "vous", "vu", "vôtre", "vôtres", "y", "à", "ça", "ès", 
"été", "être", "ô"

來源

2014-05-13 15:49:28 femtoRgon

我回來了，因爲我不滿意我的解決方案（不工作...）。我修改了StopWords列表（我壓制了「c」字），並且在幹部排除列表中放置了（「C」，「C++」，「C＃」）。我修改了構造函數來設置Stem排除列表。

在我的課堂索引的文件我已經有了：

// I've verified my custom constructor was called 
@Analyzer(impl = CustomFrenchAnalyzer.class) 
...

我創建我的自定義分析構建查詢的打印和發送到Lucene的，對於關鍵字C，C++，C＃查詢是SContent：c（而不是c，C++或c＃就像我會）

如果有人知道爲什麼？

這裏是我CustomFrenchAnalyzer類：

public class CustomFrenchAnalyzer extends Analyzer { 

protected static final Log LOG = LogFactory.getLog(CustomFrenchAnalyzer.class); 
/** 
* Extended list of custom French stopwords (Without "c"). 
*/ 
public final static String[] FRENCH_STOP_WORDS = { "a", "afin", "ai", "ainsi", "après", "attendu", "au", "aujourd", "auquel", "aussi", "autre", "autres", "aux", "auxquelles", "auxquels", "avait", 
     "avant", "avec", "avoir", "car", "ce", "ceci", "cela", "celle", "celles", "celui", "cependant", "certain", "certaine", "certaines", "certains", "ces", "cet", "cette", "ceux", "chez", 
     "ci", "combien", "comme", "comment", "concernant", "contre", "d", "dans", "de", "debout", "dedans", "dehors", "delà", "depuis", "derrière", "des", "désormais", "desquelles", "desquels", 
     "dessous", "dessus", "devant", "devers", "devra", "divers", "diverse", "diverses", "doit", "donc", "dont", "du", "duquel", "durant", "dès", "elle", "elles", "en", "entre", "environ", 
     "est", "et", "etc", "etre", "eu", "eux", "excepté", "hormis", "hors", "hélas", "hui", "il", "ils", "j", "je", "jusqu", "jusque", "l", "la", "laquelle", "le", "lequel", "les", 
     "lesquelles", "lesquels", "leur", "leurs", "lorsque", "lui", "là", "ma", "mais", "malgré", "me", "merci", "mes", "mien", "mienne", "miennes", "miens", "moi", "moins", "mon", "moyennant", 
     "même", "mêmes", "n", "ne", "ni", "non", "nos", "notre", "nous", "néanmoins", "nôtre", "nôtres", "on", "ont", "ou", "outre", "où", "par", "parmi", "partant", "pas", "passé", "pendant", 
     "plein", "plus", "plusieurs", "pour", "pourquoi", "proche", "près", "puisque", "qu", "quand", "que", "quel", "quelle", "quelles", "quels", "qui", "quoi", "quoique", "revoici", "revoilà", 
     "s", "sa", "sans", "sauf", "se", "selon", "seront", "ses", "si", "sien", "sienne", "siennes", "siens", "sinon", "soi", "soit", "son", "sont", "sous", "suivant", "sur", "ta", "te", "tes", 
     "tien", "tienne", "tiennes", "tiens", "toi", "ton", "tous", "tout", "toute", "toutes", "tu", "un", "une", "va", "vers", "voici", "voilà", "vos", "votre", "vous", "vu", "vôtre", "vôtres", 
     "y", "à", "ça", "ès", "été", "être", "ô" }; 

/** 
* Contains the stopwords used with the StopFilter. 
*/ 
private Set stoptable = new HashSet(); 
/** 
* Contains words that should be indexed but not stemmed. 
*/ 
private Set excltable = new HashSet<String>(Arrays.asList("C", "C++", "C#")); 
private String[] exclListe = { "C", "C++", "C#" }; 

/** 
* Builds an analyzer with the default stop words ({@link #FRENCH_STOP_WORDS}). 
*/ 
public CustomFrenchAnalyzer() { 
    setStemExclusionTable(exclListe); 
    stoptable = StopFilter.makeStopSet(FRENCH_STOP_WORDS); 
} 

/** 
* Builds an analyzer with the given stop words. 
*/ 
public CustomFrenchAnalyzer(String[] stopwords) { 
    stoptable = StopFilter.makeStopSet(stopwords); 
} 

/** 
* Builds an analyzer with the given stop words. 
* 
* @throws IOException 
*/ 
public CustomFrenchAnalyzer(File stopwords) throws IOException { 
    stoptable = new HashSet(WordlistLoader.getWordSet(stopwords)); 
} 

/** 
* Builds an exclusionlist from an array of Strings. 
*/ 
public void setStemExclusionTable(String[] exclusionlist) { 
    excltable = StopFilter.makeStopSet(exclusionlist); 
} 

/** 
* Builds an exclusionlist from the words contained in the given file. 
* 
* @throws IOException 
*/ 
/* 
* public void setStemExclusionTable(File exclusionlist) throws IOException { excltable = new HashSet(WordlistLoader.getWordSet(exclusionlist)); } 
*/ 

/** 
* Creates a TokenStream which tokenizes all the text in the provided Reader. 
* 
* @return A TokenStream build from a StandardTokenizer filtered with StandardFilter, StopFilter, FrenchStemFilter and LowerCaseFilter 
*/ 
public final TokenStream tokenStream(String fieldName, Reader reader) { 

    if (fieldName == null) 
     throw new IllegalArgumentException("fieldName must not be null"); 
    if (reader == null) 
     throw new IllegalArgumentException("reader must not be null"); 

    TokenStream result = new StandardTokenizer(reader); 
    result = new StandardFilter(result); 
    result = new StopFilter(result, stoptable); 
    result = new FrenchStemFilter(result, excltable); 
    // Convert to lowercase after stemming! 
    result = new LowerCaseFilter(result); 
    return result; 
} 
}

感謝

來源

2014-05-19 13:40:52 user3327940

爲法語和編程語言選擇良好的分析器

回答

相關問題