stop-words

2熱度

4回答

我正在使用Solr 4.6.0，並且試圖按年分組獲得最頻繁的術語。由於我的停用詞可能會經常更改，因此我不會在索引時間應用停用詞。相反，在查詢時間使用所有動態詞列表，如停用詞，原子詞和同義詞。但是，儘管停用詞列表包含諸如「of」和「the」之類的術語，但它們仍顯示在結果列表中（請參閱結果）。問題：我怎樣才能多面和禁用詞過濾的結果，如果我只用在查詢時StopFilterFactory？信息如果我

0熱度

1回答

Solr的禁用詞與西班牙口音不是商業

Solr的stopWords.txt中工作由於其同時Solr的服務器啓動或指數是建立的WebSphere Commerce 7的「錯誤的編碼會拋出異常文件寫幾個重音字符。對於例如：é，我的停用詞文件中存在字符。例外情況是： org.apache.solr.common.SolrException：錯誤的編碼？ )：../../的conf/sopwords.txt 我要通過你的回答這個早些時候在

1熱度

1回答

添加額外的屏蔽詞elasticsearch

目的 remove從出現在長期方面環境&設置的Mac OSX禁用詞， ES 0.90.7通過自制安裝步驟更新配置 # /usr/local/Cellar/elasticsearch/0.90.7/config/elasticsearch.yml # add more Stopwords to default standard analyzer index: analysis:

0熱度

1回答

風暴和停止詞

我是新的風暴框架（https://storm.incubator.apache.org/about/integrates.html），我使用我的代碼在本地進行測試，我認爲如果我刪除停用詞，它將表現良好，但我在線搜索並且看不到任何例如在風暴中移除停用詞。

2熱度

5回答

如何匹配兩個字符串之間的某些詞（在MATLAB中）？

在以下兩個字符串中，在「兔子」和「樹」是匹配的： str1 = ('rabbit is eating grass near a tree'); str2 = ('rabbit is sleeping under tree'); 假設cmp是宣告比較這兩個變量。我想要的結果如下： cmp = 2 或者表明兩個單詞匹配的東西。我該怎麼做呢？

8熱度

1回答

如何在NLTK中爲停用詞添加更多語言？

我使用帶停用詞的NLTK來檢測文檔的語言，使用Alejandro Nolla在http://blog.alejandronolla.com/2013/05/15/detecting-text-language-with-python-and-nltk/中描述的方法，它的工作原理合理。我還在使用NLTK停用詞語包中未包含的一些其他語言，例如捷克語和羅馬尼亞語，並且他們會與其他語言一樣獲得錯誤匹配。

25熱度

3回答

除去在Python

停止詞的比較快的方式我想從文本字符串中刪除停用詞： from nltk.corpus import stopwords text = 'hello bye the the hi' text = ' '.join([word for word in text.split() if word not in (stopwords.words('english'))]) 我處理6萬這樣的字符串，這

1熱度

1回答

php全文搜索無法正常工作，有時它搜索單詞，有時候不是

地獄的朋友我在布爾模式下使用mysql全文搜索爲我的手機銷售網站，用戶可以註冊他們的手機出售，並有像搜索欄一樣谷歌我們可以搜索該移動設備並獲取用戶的廣告。問題是當用戶註冊他們的移動在那麼有時全文可以從數據庫中搜索該移動設備，有時它不能，我嘗試了「修復表項目」;然後一旦它的工作，但再次相同的問題「例如我列出的三星銀河」那麼它不能從數據庫搜索該移動，然後我試着只是「銀河」關鍵字，我從數據庫再次註冊

0熱度

1回答

SQL Server 2008：使用CONTAINS關閉全文搜索查詢的選擇停用詞

有一個使用Microsoft SQL Server並需要搜索數據的應用程序，發現對於類似「系列6」或「系列66」的查詢「只要他們有'系列'就會返回結果，並且出現6是一個停用詞。該應用程序是2008年，但數據庫兼容級別是SQL Server 2000（80）。所以，我提出的備份和恢復爲新分貝，改變了兼容性爲100（SQL Server 2008中），然後運行執行以下操作： ALTER DATABA

10熱度

1回答

NLTK停用詞列表

我有下面的代碼，我試圖將停止詞列表應用於單詞列表。然而，結果仍然顯示出我認爲在這個過程中將被刪除的「a」和「the」這樣的詞。任何出錯的想法都會很棒。 import nltk from nltk.corpus import stopwords word_list = open("xxx.y.txt", "r") filtered_words = [w for w in word_list