有人能指出我正確的方向來解決以下問題嗎? 我從UMLS醫學術語巨人名單,即一個樣本可能是 Disease control is good
Disease control is poor
Disease control is excellent
Drug adherence
Current drug
Sodium Valproate
Antibiotic VI
Epilepsy con
我在我的代碼,這個錯誤,我不知道如何固定 import nltk
from nltk.util import ngrams
def word_grams(words, min=1, max=4):
s = []
for n in range(min, max):
for ngram in ngrams(words, n):
s.append('
比方說,我有這樣的文字: 'he is hdajs asdas da he is not asd as da s i am a da daas you am a'
我已經創建了所有從這個文本的二元語法: >>> bigrams_
[('he', 'is'), ('is', 'hdajs'), ('hdajs', 'asdas'), ('asdas', 'da'), ('da', 'he'),
從文檔中我想生成包含某個單詞的所有n元組。 例子: document: i am 50 years old, my son is 20 years old
word: years
n: 2
輸出: [(50, years), (years, old), (20, years), (years, old)]
我知道我們可以生成所有可能的正克並過濾掉字的那些,但我不知道是否有更有效的方法來