我正在研究基於Python/NLTK和非英文unicode文本的NLP項目。爲此,我需要在一個句子中搜索unicode字符串。在Python中搜索Unicode字符
有一個.txt保存了一些非英語unicode句子的文件。使用NLTK PunktSentenceTokenizer我打破了他們,並保存在一個Python列表。
sentences = PunktSentenceTokenizer().tokenize(text)
現在我可以通過列表迭代,並得到各sentence
分開。
什麼,我需要做的就是通過sentence
和識別單詞具有給定的Unicode字符。
實施例 -
sentence = 'AASFG BBBSDC FEKGG SDFGF'
假設上面的文字是非英語unicode和我需要找到與GF
結束則返回全詞字(可以是詞的索引)。
search = 'SDFGF'
同樣地,我需要找到BB
開始得到它的詞的話。
search2 = 'BBBSDC'
現在我得到了另外一個問題的情況下。從上面的代碼中,我可以找到以給定字母結尾或開頭的單詞。如何能夠在它之前和之後獲得詞彙。例如,如果我搜索GG並獲得了FEKGG,那麼我需要將BBBSDC作爲字前置,SDFGF和字後置。 – ChamingaD
@ChamingaD更新回答問題 – dbr