n-gram

    8熱度

    2回答

    我是機器學習的新手,所以如果問題不大,請輕鬆一下。 我已經給出了觀察字符序列說,ABABBABBB .....(n個字符)。我的目標是通過一些「學習」機制來預測下一個角色。我的約束是,守舊的人物(訓練數據?)是不是太多,即我已經說了一個長度爲6000的序列,以瞭解潛在的模式。我對於解決這個問題需要採取什麼策略很困惑,我的初始下注: 1)某種ngram模型? 2)神經網絡(LSTM等)? 3)HMM

    9熱度

    1回答

    對於我們構建的應用程序,我們使用簡單的統計模型進行詞語預測(如Google Autocomplete)來指導搜索。 它使用從相關文本文檔的大型文集收集的ngram序列。通過考慮先前的N-1個詞,它使用Katz back-off以概率的降序建議5個最可能的「下一個詞」。 我們希望將此擴展爲預測短語(多個單詞)而不是單個單詞。但是,當我們預測一個短語時,我們不希望顯示其前綴。 例如,考慮輸入the c

    1熱度

    1回答

    我的Hibernate Search分析器配置有一些問題。 我的一個索引實體(「醫院」)有一個字符串字段(「名稱」),可能包含長度爲1-40的值。我希望能夠通過只搜索一個字符來找到一個實體(因爲有可能醫院有單個字符名稱)。 @Indexed(index = "HospitalIndex") @AnalyzerDef(name = "ngram", tokenizer = @Token

    1熱度

    2回答

    的四克字TEXT的非對稱填充是 >>generated_ngrams = ngrams('TEXT', 4, pad_left=True, pad_right=True, left_pad_symbol=' ', right_pad_symbol=' ') >>list(generated_ngrams) [(' ', ' ', ' ', 'T'), (' ', ' ', 'T', 'E')

    2熱度

    2回答

    有沒有一種方法可以統計每個元組在這個標記列表中出現的次數? 我試過count方法,但它不起作用。 這是列表: ['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay'] 這些都是根據名單上的元組: ('hello', 'how') ('how', 'are') ('are','you') ('you', '

    4熱度

    3回答

    要產生朱莉婭詞二元語法,我可以簡單地通過原始列表和下降的第一個元素的列表,如ZIP: julia> s = split("the lazy fox jumps over the brown dog") 8-element Array{SubString{String},1}: "the" "lazy" "fox" "jumps" "over" "the" "brown" "dog

    0熱度

    1回答

    我試圖從大語料庫中找到k個最常見的n元組。我已經看到很多地方提出了天真的方法 - 簡單地掃描整個語料庫並保存所有n元數的字典。有一個更好的方法嗎?

    0熱度

    1回答

    我想使用EdgeNGramFilterFactory從正面和背面生成Edge NGrams。對於前我使用 <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="4"/> 和背部,我使用 <filter class="solr.ReverseStringFilterFactory"/> <fi

    0熱度

    1回答

    我正在閱讀「使用Python進行網頁刮取」。在第8章中,作者經過n元語法表示下面的代碼段的一個例子: from urllib.request import urlopen from bs4 import BeautifulSoup import re import string import operator def cleanInput(input): input = re

    1熱度

    1回答

    我正在試圖爲一個語料庫,一個使用unigrams,一個使用bigrams製作兩個文檔項矩陣。然而,二元矩陣當前與單元矩陣相同,我不知道爲什麼。從的ngram包作爲標記生成器,但是這並不工作 docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramTokenizer <- fu