trigram

-1熱度

1回答

我有一個很小的數據集（〜1000行）。每一行都有一個用戶名，名字和姓氏。我可以使用pg_trgm對這三個字段進行模糊搜索，並將這三個字段連接在一起，每個字段之間有兩個空格？或者，是否有更好的方法來搜索這組用戶，使用卦或任何其他方法？

2熱度

1回答

我有一個文章標題（測試$標題）和他們的社會總份額（測試$ total_shares）的測試文件。我可以用比如找到最常用的卦： library(tau) trigrams = textcnt(test$title, n = 3, method = "string") trigrams = trigrams[order(trigrams, decreasing = TRUE)] head(tri

0熱度

1回答

pg_search卦擴展不工作

Rails5，我把它安裝在數據庫 pg_trgm | 1.1 | public | text similarity measurement and index searching based on trigrams) ，並在初始化： PgSearch.multisearch_options = { :using => [:tsearch, :trigram], } 我已經

1熱度

1回答

pg_search子字符串的電子郵件地址

我正在使用pg_search以全文搜索我的客戶名稱和電子郵件地址上的d/b。如果我搜索電子郵件地址的域名部分，如何獲得匹配？例如hotmail，返回所有客戶的hotmail地址。到目前爲止，我採取的步驟包括使用trigram搜索和爲trigram搜索添加psql擴展。本文中的評論PG full text search on rails using pg_search gem for substr

0熱度

1回答

布朗語料庫不會產生帶有HMM和TnT標籤的結果

關於POS標籤的最具動態的語料庫是樹庫語料庫。然而布朗語料庫只是拒絕使用HMM和TnT標記器產生結果。對此有何解釋？ size = int(len(brown.tagged_sents())*0.9) train = brown.tagged_sents()[:size] test = brown.tagged_sents()[size:] trainer = hmm.HiddenMarko

1熱度

1回答

nltk.KneserNeyProbDist使用<a href="https://github.com/nltk/nltk" rel="nofollow noreferrer">nltk</a>給予0.25的概率分佈爲大多數我對語言建模工作卦

的我用這essay作爲我的語料庫mypet.txt文件。對於大多數trigrams，我得到0.25 Kneser Ney概率分佈。我不知道爲什麼。這樣對嗎？它爲什麼這樣做？這是我的word_ngram.py文件： import io import nltk from nltk.util import ngrams from nltk.tokenize import sent_tokenize

0熱度

1回答

如何在postgresql中創建n-gram

我希望在我的應用程序中使用搜索功能。我用trigram實現它，它工作正常。問題是：巽是創建3字符組的字的序列。我想在單個對象中有3個以上的字符。例如： select show_trgm('abcpqrs'); 這將返回：{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "} 我想{" a"," ab","abc","bcp","cpq","p

1熱度

2回答

PostgreSQL，trigrams和相似性

只需在我的Mac上測試PostgreSQL 9.6.2並使用Ngrams。假設酒莊領域有GIN三元組指數。的相似性（我知道這是不推薦使用）限制： SELECT set_limit(0.5); 我建設上2,3M行的表一卦搜索。我選擇代碼： SELECT winery, similarity(winery, 'chateau chevla blanc') AS similarity FRO

0熱度

3回答

PostgreSQL全文搜索縮寫

我使用'german'創建了Postgresql全文搜索。我怎樣才能確定，當我搜索「Bezirk」時，包含「Bez」的行。也是一場比賽？（反之亦然）

0熱度

2回答

如何將當前字典嵌入到python中的另一個字典中？

我有一個默認字典，有3層嵌入，稍後將用於三元組。 counts = defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:0))) 然後，我有一個for循環，通過一個文件去，並創建每個字母的計數（和bicounts和tricounts） counts[letter1][letter2][letter3] = counts[letter