snowball

    11熱度

    7回答

    你知道Porter2 stemmer的任何java實現(或者用java編寫的更好的stemmer)嗎?我知道,有波特(不Porter2)的Java版本在這裏: http://tartarus.org/~martin/PorterStemmer/java.txt 但http://tartarus.org/~martin/PorterStemmer/筆者提到,波特是有點過時,建議使用Porter2,可

    2熱度

    1回答

    其中所產生的語言,我應該使用,如果我想支持所有 語言全文搜索。據我所知,使用特定的詞幹語言支持與 語言搜索索引需要創建 ,但是這是不可能的,我爲我的搜索程序可能包含 不同語言 - 馬諾

    1熱度

    2回答

    時奇怪的搜索行爲所以我們可以說我有一個這樣定義的ElasticSearch指數: curl -XPUT 'http://localhost:9200/test' -d '{ "mappings": { "example": { "properties": { "text": { "type": "string", "analy

    2熱度

    1回答

    Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_29); IndexSearcher indexSearcher; File file = new File("/sdcard/index/"); Directory indexDir = FSDirectory.open(file); indexSearcher = new I

    0熱度

    2回答

    我試圖讓使用Lucene.NET拼寫檢查的設置,這一切工作比同類下列情形罰款等: 我有一個包含衛星的文本索引,我使用雪球分析它。 然後我創建一個SpellChecker索引並從中獲得建議。我傳回「Satalite」時得到的建議是「衛星」。 我假設這是因爲雪球阻止了衛星到衛星,因此SpellChecker正在返回該建議。 反正有,所以我可以一起使用這兩個,而不是創建一個額外的字段爲非詞幹的單詞,所以

    1熱度

    1回答

    我正在使用Weka與SnowBall包裝中提供的搬運工Stemmer。一切工作正常,如果我跑在Eclipse中我的應用程序,但只要我出口它運行的JAR(與所有的庫在內)秧雞說: Stemmer 'porter' unknown! 我怎麼能解決呢?

    20熱度

    3回答

    剛開始使用Lucene.Net。我使用標準分析器對100,000行進行了索引,運行了一些測試查詢,並注意到如果原始詞彙是單數的,則多個查詢不會返回結果。我瞭解雪球分析儀增加了支持支持,這聽起來不錯。但是,我想知道是否有任何缺點與雪球超過標準?我是否因此而失去任何東西?有沒有其他的分析儀可以考慮?

    0熱度

    3回答

    我想從html頁面中提取相關關鍵字。 我已經規定了所有html的東西,將文本拆分爲單詞,使用了一個詞幹程序,並從lucene中刪除了出現在詞尾列表中的所有單詞。 但是現在我仍然有很多基本的動詞和代詞作爲最常見的單詞。 在lucene或雪球或其他任何地方是否有一些方法或一組詞來過濾出所有這些東西,如「我,是,去,去,是,是,是,我們,你,我們......」 。「