stop-words

0熱度

1回答

我正在玩一個停用詞過濾器我向腳本提供包含文章的文件的路徑。但是我得到的錯誤： Traceback (most recent call last): File "stop2.py", line 17, in <module> print preprocess(sentence) File "stop2.py", line 10, in preprocess sentence = sent

1熱度

1回答

「input string 1 is invalid UTF-8」in removeWords function

我已經瀏覽了Stack Overflow的所有問題，關於爲什麼removeWords不工作，對我而言，這不是已經發布的原因。這是我有： setwd("not shown") filenames<-list.files(getwd(),pattern="*.txt") files<-lapply(filenames,readLines) docs<-Corpus(VectorSource(f

-1熱度

2回答

從C＃中的文本文件中刪除停用詞＃

我讀了兩個文本文件：第一個包含阿拉伯文本，我將它分開。第二個包含停止詞。我想刪除從第一個文件中的任何停止字（第二檔），但我不知道如何做到這一點： FileStream fs = new FileStream(@"H:\\arabictext.txt", FileMode.Open); StreamReader arab = new StreamReader(fs,Encoding.Defaul

1熱度

1回答

使用NLTK編碼問題

我試圖抓取一個非常'右側'的網站來進行關於仇恨和種族主義檢測的研究，所以我的測試內容可能會受到攻擊。我試圖刪除一些停用詞和標點符號在Python中，我使用NLTK，但我遇到了一個編碼問題...我使用Python 2.7和數據來自一個文件，我填寫文章從網站我爬到： stop_words = set(nltk.corpus.stopwords.words("english")) for key,

0熱度

1回答

在Fulltextsearch中查找單詞'x ++'SQLServer

我試圖在我的完全索引字段中爲'x ++'這個詞編制索引，但我不知道如何。我認爲問題在於'+'字符不包含在索引列表字符中。執行查詢： SELECT * FROM sys.dm_fts_index_keywords(DB_ID('my_db'), OBJECT_ID('my_table')) 我注意到，這項工作「C++」被索引，所以我認爲應該有一種方式來問我的SQLSERVER索引特定的詞（「C

3熱度

1回答

Solr - 使用最小匹配= 100％配置SeachHandler的SeachComponent，並且仍然忽略搜索查詢中的停用詞

我們使用solr.StopFilterFactory配置了索引分析器。所以停用詞沒有編入索引。我們還配置了solr.StopFilterFactory我們的查詢分析器，因爲我們想停止詞從搜索查詢項 <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class

9熱度

2回答

添加/刪除帶空格的停用詞

添加/刪除帶有空格的停用詞的最佳方式是什麼？我正在使用token.is_stop函數，並希望對該集進行一些客戶更改。我正在查看文檔，但找不到關於停用詞的任何內容。謝謝！

3熱度

1回答

NLP - 爲什麼「不」是一個停止詞？

我想在執行主題建模之前刪除停用詞。我注意到一些否定詞（通常不是，也不是，沒有，等等）通常被認爲是停用詞。例如，NLTK，spacy和sklearn在他們的停用詞列表中包括「不」。但是，如果我們從下面的這些句子中刪除「不」，它們將失去重要意義，並且這對於主題建模或情感分析來說是不準確的。 1). StackOverflow is helpful => StackOverflow helpful

1熱度

1回答

在java中停止詞的去除方法不工作

我正在嘗試編寫比代碼讀取全部cran字段的Java代碼（Information Retrial中的熱門話題），以便進行標記，計數總標記，找到50個常用詞並刪除預先定義的停用詞。它的工作原理除了StopWordsRemoval方法（代碼中的最後一個）, 它不會根據需要更改輸出，此方法之前/之後的輸出是相同的！你能幫我弄清楚是什麼問題嗎？它是在Java中，我的第一個代碼:( import jav

0熱度

1回答

過濾出停用詞

我已經創建了一個簡單的詞計數程序，並且試圖從我的列表中使用nltk（參見下文）過濾掉常用詞。我的問題是如何將我的「停止」過濾器應用到我的「頻率」列表？ #Start from nltk.corpus import stopwords import re import string frequency = {} document_text = open('Import.txt', 'r'