trigram

    -1熱度

    1回答

    我有一個很小的數據集(〜1000行)。每一行都有一個用戶名,名字和姓氏。我可以使用pg_trgm對這三個字段進行模糊搜索,並將這三個字段連接在一起,每個字段之間有兩個空格?或者,是否有更好的方法來搜索這組用戶,使用卦或任何其他方法?

    2熱度

    1回答

    我有一個文章標題(測試$標題)和他們的社會總份額(測試$ total_shares)的測試文件。我可以用比如找到最常用的卦: library(tau) trigrams = textcnt(test$title, n = 3, method = "string") trigrams = trigrams[order(trigrams, decreasing = TRUE)] head(tri

    0熱度

    1回答

    Rails5,我把它安裝在數據庫 pg_trgm | 1.1 | public | text similarity measurement and index searching based on trigrams) ,並在初始化: PgSearch.multisearch_options = { :using => [:tsearch, :trigram], } 我已經

    1熱度

    1回答

    我正在使用pg_search以全文搜索我的客戶名稱和電子郵件地址上的d/b。如果我搜索電子郵件地址的域名部分,如何獲得匹配?例如hotmail,返回所有客戶的hotmail地址。 到目前爲止,我採取的步驟包括使用trigram搜索和爲trigram搜索添加psql擴展。本文中的評論PG full text search on rails using pg_search gem for substr

    0熱度

    1回答

    關於POS標籤的最具動態的語料庫是樹庫語料庫。然而布朗語料庫只是拒絕使用HMM和TnT標記器產生結果。對此有何解釋? size = int(len(brown.tagged_sents())*0.9) train = brown.tagged_sents()[:size] test = brown.tagged_sents()[size:] trainer = hmm.HiddenMarko

    1熱度

    1回答

    的我用這essay作爲我的語料庫mypet.txt文件。對於大多數trigrams,我得到0.25 Kneser Ney概率分佈。我不知道爲什麼。這樣對嗎?它爲什麼這樣做?這是我的word_ngram.py文件: import io import nltk from nltk.util import ngrams from nltk.tokenize import sent_tokenize

    0熱度

    1回答

    我希望在我的應用程序中使用搜索功能。 我用trigram實現它,它工作正常。 問題是: 巽是創建3字符組的字的序列。 我想在單個對象中有3個以上的字符。 例如: select show_trgm('abcpqrs'); 這將返回:{" a"," ab","abc","bcp","cpq","pqr","qrs","rs "} 我想{" a"," ab","abc","bcp","cpq","p

    1熱度

    2回答

    只需在我的Mac上測試PostgreSQL 9.6.2並使用Ngrams。 假設酒莊領域有GIN三元組指數。 的相似性(我知道這是不推薦使用)限制: SELECT set_limit(0.5); 我建設上2,3M行的表一卦搜索。 我選擇代碼: SELECT winery, similarity(winery, 'chateau chevla blanc') AS similarity FRO

    0熱度

    3回答

    我使用'german'創建了Postgresql全文搜索。我怎樣才能確定,當我搜索「Bezirk」時,包含「Bez」的行。也是一場比賽? (反之亦然)

    0熱度

    2回答

    我有一個默認字典,有3層嵌入,稍後將用於三元組。 counts = defaultdict(lambda:defaultdict(lambda:defaultdict(lambda:0))) 然後,我有一個for循環,通過一個文件去,並創建每個字母的計數(和bicounts和tricounts) counts[letter1][letter2][letter3] = counts[letter