stop-words

    0熱度

    1回答

    我正在玩一個停用詞過濾器 我向腳本提供包含文章的文件的路徑。 但是我得到的錯誤: Traceback (most recent call last): File "stop2.py", line 17, in <module> print preprocess(sentence) File "stop2.py", line 10, in preprocess sentence = sent

    1熱度

    1回答

    我已經瀏覽了Stack Overflow的所有問題,關於爲什麼removeWords不工作,對我而言,這不是已經發布的原因。 這是我有: setwd("not shown") filenames<-list.files(getwd(),pattern="*.txt") files<-lapply(filenames,readLines) docs<-Corpus(VectorSource(f

    -1熱度

    2回答

    我讀了兩個文本文件:第一個包含阿拉伯文本,我將它分開。第二個包含停止詞。 我想刪除從第一個文件中的任何停止字(第二檔),但我不知道如何做到這一點: FileStream fs = new FileStream(@"H:\\arabictext.txt", FileMode.Open); StreamReader arab = new StreamReader(fs,Encoding.Defaul

    1熱度

    1回答

    我試圖抓取一個非常'右側'的網站來進行關於仇恨和種族主義檢測的研究,所以我的測試內容可能會受到攻擊。 我試圖刪除一些停用詞和標點符號在Python中,我使用NLTK,但我遇到了一個編碼問題...我使用Python 2.7和數據來自一個文件,我填寫文章從網站我爬到: stop_words = set(nltk.corpus.stopwords.words("english")) for key,

    0熱度

    1回答

    我試圖在我的完全索引字段中爲'x ++'這個詞編制索引,但我不知道如何。我認爲問題在於'+'字符不包含在索引列表字符中。 執行查詢: SELECT * FROM sys.dm_fts_index_keywords(DB_ID('my_db'), OBJECT_ID('my_table')) 我注意到,這項工作「C++」被索引,所以我認爲應該有一種方式來問我的SQLSERVER索引特定的詞(「C

    3熱度

    1回答

    我們使用solr.StopFilterFactory配置了索引分析器。所以停用詞沒有編入索引。 我們還配置了solr.StopFilterFactory我們的查詢分析器,因爲我們想停止詞從搜索查詢項 <analyzer type="query"> <tokenizer class="solr.StandardTokenizerFactory"/> <filter class

    9熱度

    2回答

    添加/刪除帶有空格的停用詞的最佳方式是什麼?我正在使用token.is_stop函數,並希望對該集進行一些客戶更改。我正在查看文檔,但找不到關於停用詞的任何內容。謝謝!

    3熱度

    1回答

    我想在執行主題建模之前刪除停用詞。我注意到一些否定詞(通常不是,也不是,沒有,等等)通常被認爲是停用詞。例如,NLTK,spacy和sklearn在他們的停用詞列表中包括「不」。但是,如果我們從下面的這些句子中刪除「不」,它們將失去重要意義,並且這對於主題建模或情感分析來說是不準確的。 1). StackOverflow is helpful => StackOverflow helpful

    1熱度

    1回答

    我正在嘗試編寫比代碼讀取全部cran字段的Java代碼(Information Retrial中的熱門話題),以便進行標記,計數總標記,找到50個常用詞並刪除預先定義的停用詞。 它的工作原理除了StopWordsRemoval方法(代碼中的最後一個), 它不會根據需要更改輸出,此方法之前/之後的輸出是相同的! 你能幫我弄清楚是什麼問題嗎? 它是在Java中,我的第一個代碼:( import jav

    0熱度

    1回答

    我已經創建了一個簡單的詞計數程序,並且試圖從我的列表中使用nltk(參見下文)過濾掉常用詞。 我的問題是如何將我的「停止」過濾器應用到我的「頻率」列表? #Start from nltk.corpus import stopwords import re import string frequency = {} document_text = open('Import.txt', 'r'