n-gram

8熱度

2回答

我是機器學習的新手，所以如果問題不大，請輕鬆一下。我已經給出了觀察字符序列說，ABABBABBB .....（n個字符）。我的目標是通過一些「學習」機制來預測下一個角色。我的約束是，守舊的人物（訓練數據？）是不是太多，即我已經說了一個長度爲6000的序列，以瞭解潛在的模式。我對於解決這個問題需要採取什麼策略很困惑，我的初始下注： 1）某種ngram模型？ 2）神經網絡（LSTM等）？ 3）HMM

9熱度

1回答

預測詞組而不僅僅是下一個詞

對於我們構建的應用程序，我們使用簡單的統計模型進行詞語預測（如Google Autocomplete）來指導搜索。它使用從相關文本文檔的大型文集收集的ngram序列。通過考慮先前的N-1個詞，它使用Katz back-off以概率的降序建議5個最可能的「下一個詞」。我們希望將此擴展爲預測短語（多個單詞）而不是單個單詞。但是，當我們預測一個短語時，我們不希望顯示其前綴。例如，考慮輸入the c

1熱度

1回答

Hibernate搜索| ngram分析器與minGramSize 1

我的Hibernate Search分析器配置有一些問題。我的一個索引實體（「醫院」）有一個字符串字段（「名稱」），可能包含長度爲1-40的值。我希望能夠通過只搜索一個字符來找到一個實體（因爲有可能醫院有單個字符名稱）。 @Indexed(index = "HospitalIndex") @AnalyzerDef(name = "ngram", tokenizer = @Token

1熱度

2回答

的n-gram在NLTK

的四克字TEXT的非對稱填充是 >>generated_ngrams = ngrams('TEXT', 4, pad_left=True, pad_right=True, left_pad_symbol=' ', right_pad_symbol=' ') >>list(generated_ngrams) [(' ', ' ', ' ', 'T'), (' ', ' ', 'T', 'E')

2熱度

2回答

在列表中出現Python計數元組

有沒有一種方法可以統計每個元組在這個標記列表中出現的次數？我試過count方法，但它不起作用。這是列表： ['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay'] 這些都是根據名單上的元組： ('hello', 'how') ('how', 'are') ('are','you') ('you', '

4熱度

3回答

生成的n-gram與朱莉婭

要產生朱莉婭詞二元語法，我可以簡單地通過原始列表和下降的第一個元素的列表，如ZIP： julia> s = split("the lazy fox jumps over the brown dog") 8-element Array{SubString{String},1}: "the" "lazy" "fox" "jumps" "over" "the" "brown" "dog

0熱度

1回答

有沒有更有效的方法來找到最常見的n-gram？

我試圖從大語料庫中找到k個最常見的n元組。我已經看到很多地方提出了天真的方法 - 簡單地掃描整個語料庫並保存所有n元數的字典。有一個更好的方法嗎？

0熱度

1回答

Solr中的正面和背面EdgeNGrams

我想使用EdgeNGramFilterFactory從正面和背面生成Edge NGrams。對於前我使用 <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="4"/> 和背部，我使用 <filter class="solr.ReverseStringFilterFactory"/> <fi

0熱度

1回答

如何將函數集成到書「用Python進行網頁刮取」中提出的一段代碼

我正在閱讀「使用Python進行網頁刮取」。在第8章中，作者經過n元語法表示下面的代碼段的一個例子： from urllib.request import urlopen from bs4 import BeautifulSoup import re import string import operator def cleanInput(input): input = re

1熱度

1回答

R-bigram tokenizer中的文檔項矩陣不起作用

我正在試圖爲一個語料庫，一個使用unigrams，一個使用bigrams製作兩個文檔項矩陣。然而，二元矩陣當前與單元矩陣相同，我不知道爲什麼。從的ngram包作爲標記生成器，但是這並不工作 docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices BigramTokenizer <- fu