n-gram

1熱度

1回答

有人能指出我正確的方向來解決以下問題嗎？我從UMLS醫學術語巨人名單，即一個樣本可能是 Disease control is good Disease control is poor Disease control is excellent Drug adherence Current drug Sodium Valproate Antibiotic VI Epilepsy con

1熱度

1回答

從文本語料庫一個給定的單詞提取搭配詞 - 的Python

我試圖找出如何提取特定詞的搭配詞出來的文字。如：在統計上顯着的搭配，例如：整個文本語料庫中的「霍比特人」一詞？我期待類似於單詞列表（搭配）或者可能是元組（我的單詞+它的搭配）的結果。我知道如何使雙邊和使用NLTK卦，以及如何選擇只包含我感興趣字二環或卦。我正在使用下面的代碼（改編自this StackOverflow question）。 import nltk from nltk.collo

0熱度

2回答

錯誤類型錯誤：「海峽」對象不是可調用的蟒蛇

我在我的代碼，這個錯誤，我不知道如何固定 import nltk from nltk.util import ngrams def word_grams(words, min=1, max=4): s = [] for n in range(min, max): for ngram in ngrams(words, n): s.append('

2熱度

3回答

的次兩字已經看到在列表到一個點號

比方說，我有這樣的文字： 'he is hdajs asdas da he is not asd as da s i am a da daas you am a' 我已經創建了所有從這個文本的二元語法： >>> bigrams_ [('he', 'is'), ('is', 'hdajs'), ('hdajs', 'asdas'), ('asdas', 'da'), ('da', 'he'),

2熱度

1回答

R中的TermDocumentMatrix - 僅創建1剋剋

我剛剛在R中開始使用tm包，似乎無法解決問題。雖然我的分詞器的功能似乎工作權： uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

0熱度

1回答

Elasticsearch查詢返回奇怪的排序（根據分數）導致

我使用Elasticsearch v5.3.2 我有以下映射： { "mappings":{ "info":{ "_all":{ "enabled": false }, "properties":{ "info":{ "properties":{ "email":{

-2熱度

1回答

使用Ngram-Python創建多個句子的單詞計數矩陣

假設我在csv文件中有多個句子（不是段落），比如句子A，B，C等。我想用N-gram（Unigrams或Bigrams）來計算每個句子中的單詞矩陣。這樣我就可以輕鬆地從我的矩陣中爲每個句子得到一個計算的N-gram向量。我該怎麼做？ PS：我已經嘗試了幾種方法，但是他們都是爲一個句子或整個段落計算N-gram！

2熱度

1回答

用法的詞語單數爲Keras Tokenizer

在Keras中使用單詞的正克是否是真的？例如，句子列表在X_train數據框中包含「句子」列。我在接下來的方式標記生成器使用來自Keras： tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to

0熱度

2回答

elasticsearch正克例如澄清

參照這裏的例子 https://www.elastic.co/guide/en/elasticsearch/guide/current/ngrams-compound-words.html 報價尋找「阿德勒」返回結果。對「Adler」的搜索成爲adl，dle和ler三個詞的查詢：但爲什麼查詢「Zdler」返回結果，即使zdl不是其中一個術語？ GET /my_index/my_type/_se

1熱度

1回答

查找所有包含某個特定單詞的n-gram

從文檔中我想生成包含某個單詞的所有n元組。例子： document: i am 50 years old, my son is 20 years old word: years n: 2 輸出： [(50, years), (years, old), (20, years), (years, old)] 我知道我們可以生成所有可能的正克並過濾掉字的那些，但我不知道是否有更有效的方法來