stemming

0熱度

1回答

我有這個結構的數據幀： #Load lexicon Lexicon_DF <- read.csv("LexiconFrancais.csv",header=F, sep=";") 的「LexiconFrancais.csv」的結構是這樣的： French Translation (Google Translate);Positive;Negative un dos;0;0 abaque;

0熱度

1回答

Word2Vec在非英語語言中的實現？

是否可以使用不基於英語字母表的語言（如烏爾都語，泰米爾語等）來實現Word2Vec模型？如果有的話可以有人建議我一個途徑。

-1熱度

1回答

Ascii碼編解碼器不能解碼字節爲0xC2蟒蛇NLTK

我有我使用垃圾郵件分類代碼和它的作品很好，但每次我嘗試幹/ lemmatize字我得到這個錯誤：文件「 /Users/Ramit/Desktop/Bayes1/src/filter.py 「第16行，在trim_word 字= ps.stem（字）文件」 /Library/Python/2.7/site-packages/nltk/stem /porter.py「，行664，在詞幹 stem

2熱度

1回答

在R的字詞

我正在處理文本挖掘項目並嘗試清除文本 - 單/複數形式的單詞，不同時態的動詞和拼寫錯誤的單詞。我的示例如下所示： test <- c("apple","apples","wife","wives","win","won","winning","winner","orange","oranges","orenge") 我試圖在SnowballC軟件包中使用wordStem函數。然而，結果是錯誤的

-1熱度

1回答

r文本分析詞幹完成

如何在R中詞幹完成後完成單詞？ x <- c("completed","complete","completion","teach","taught") tm <- Corpus(VectorSource(x)) tm <- tm_map(tm, stemDocument) inspect(tm) 舉例說明目的，因爲實際的文本語料庫要大得多。我以前搜索過examples，它指向創建一組

-2熱度

1回答

stri_replace_all_fixed緩慢的大數據集 - 有沒有其他選擇？

我試圖在R中使用stri_replace_all_fixed函數來幹〜4000個文檔。但是，它非常慢，因爲我的詞幹字典包含約。 300k字。我這樣做是因爲文件是丹麥文，因此Porter Stemmer Algortihm沒有用（這太過分了）。我已經發布了下面的代碼。有沒有人知道這樣做的替代方案？邏輯：查看每個文檔中的每個單詞 - >如果word =來自voc-table的單詞，則用tran-w

2熱度

1回答

Python Snowball Stemmer + RAKE：生成'u's

我試圖從包含文本的文本文件中獲取關鍵字，並且我首先填充文本。下面的代碼有效，但由於某種原因，它會在關鍵字列表前生成字母「u」。例如。這就是我得到： [(u'keyword1', 5), (u'keyword2', 4)] 而且我不知道在哪裏的「U」從何而來。這裏是代碼（導入包後）： stemmer = SnowballStemmer("english") rake_object = rake.

0熱度

1回答

用pandas dataframe中的函數列表創建列表

我想創建一個新的熊貓列，方法是在另一列中的單詞列表中運行單詞詞幹功能。我可以通過使用apply和lambda來標記一個字符串，但我無法弄清楚如何將這個外推到在單詞列表上運行的情況。 test = {'Statement' : ['congratulations on the future','call the mechanic','more text'], 'Other' : [2,3,4]}

1熱度

1回答

使用Lucene 6詞幹英語單詞6

我正在尋找使用Lucene 6.5來干擾英語單詞。我見過很多使用Lucene實現這個功能的例子。然而，我迄今看到的例子似乎是使用舊版本的Lucene，並且使用Lucene 6複製相同的代碼並不可能。一個恰當的例子是this one。建議並接受解決方案使用org.apache.lucene.analysis.PorterStemmer這似乎並不在同一個封裝中的Lucene 6 更新：我發現，對於P

0熱度

1回答

在OpenNLP中，這些詞彙有意義嗎？

我剛剛安裝了openNLP並測試了一些詞幹。那些干擾結果對我來說很可疑。 people => peopl excellent => excel beautiful => beauti 我不知道這些都是OpenNLP的原始輸出，或者我的安裝具有不能產生正確的結果有些問題。有人可以幫我驗證這些嗎？真的非常感謝。