n-gram

    1熱度

    1回答

    有人能指出我正確的方向來解決以下問題嗎? 我從UMLS醫學術語巨人名單,即一個樣本可能是 Disease control is good Disease control is poor Disease control is excellent Drug adherence Current drug Sodium Valproate Antibiotic VI Epilepsy con

    1熱度

    1回答

    我試圖找出如何提取特定詞的搭配詞出來的文字。如:在統計上顯着的搭配,例如:整個文本語料庫中的「霍比特人」一詞?我期待類似於單詞列表(搭配)或者可能是元組(我的單詞+它的搭配)的結果。 我知道如何使雙邊和使用NLTK卦,以及如何選擇只包含我感興趣字二環或卦。我正在使用下面的代碼(改編自this StackOverflow question)。 import nltk from nltk.collo

    0熱度

    2回答

    我在我的代碼,這個錯誤,我不知道如何固定 import nltk from nltk.util import ngrams def word_grams(words, min=1, max=4): s = [] for n in range(min, max): for ngram in ngrams(words, n): s.append('

    2熱度

    3回答

    比方說,我有這樣的文字: 'he is hdajs asdas da he is not asd as da s i am a da daas you am a' 我已經創建了所有從這個文本的二元語法: >>> bigrams_ [('he', 'is'), ('is', 'hdajs'), ('hdajs', 'asdas'), ('asdas', 'da'), ('da', 'he'),

    2熱度

    1回答

    我剛剛在R中開始使用tm包,似乎無法解決問題。 雖然我的分詞器的功能似乎工作權: uniTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=1, max=1)) biTokenizer <- function(x) NGramTokenizer(x, Weka_control(min=2, max=2)) triTokeniz

    0熱度

    1回答

    我使用Elasticsearch v5.3.2 我有以下映射: { "mappings":{ "info":{ "_all":{ "enabled": false }, "properties":{ "info":{ "properties":{ "email":{

    -2熱度

    1回答

    假設我在csv文件中有多個句子(不是段落),比如句子A,B,C等。我想用N-gram(Unigrams或Bigrams)來計算每個句子中的單詞矩陣。這樣我就可以輕鬆地從我的矩陣中爲每個句子得到一個計算的N-gram向量。我該怎麼做? PS:我已經嘗試了幾種方法,但是他們都是爲一個句子或整個段落計算N-gram!

    2熱度

    1回答

    在Keras中使用單詞的正克是否是真的? 例如,句子列表在X_train數據框中包含「句子」列。 我在接下來的方式標記生成器使用來自Keras: tokenizer = Tokenizer(lower=True, split=' ') tokenizer.fit_on_texts(X_train.sentences) X_train_tokenized = tokenizer.texts_to

    0熱度

    2回答

    參照這裏的例子 https://www.elastic.co/guide/en/elasticsearch/guide/current/ngrams-compound-words.html 報價尋找「阿德勒」返回結果。 對「Adler」的搜索成爲adl,dle和ler三個詞的查詢: 但爲什麼查詢「Zdler」返回結果,即使zdl不是其中一個術語? GET /my_index/my_type/_se

    1熱度

    1回答

    從文檔中我想生成包含某個單詞的所有n元組。 例子: document: i am 50 years old, my son is 20 years old word: years n: 2 輸出: [(50, years), (years, old), (20, years), (years, old)] 我知道我們可以生成所有可能的正克並過濾掉字的那些,但我不知道是否有更有效的方法來