tokenize

    0熱度

    1回答

    該消息還應顯示用戶所做的登錄嘗試次數。如果用戶達到最大嘗試次數,程序將終止顯示消息對話框,顯示「超出嘗試次數。程序終止「。 如果文本文件中只有一個密碼和一個用戶名,我的代碼將接受用戶名和密碼。如何掃描文本文件中的所有10個數據,並且如果它匹配用戶的輸入,它將授予訪問權限? 我的文本文件看起來是這樣的: [awe1,pass1] [awe2,pass2] [awe3,pass3]

    0熱度

    2回答

    我想標記一個句子列表,但保留否定的動詞作爲唯一的單詞。 t = """As aren't good. Bs are good""" print(word_tokenize(t)) ['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good'] 我想「不是」和「是」分開。隨着word_tokenize我得到「不」。同樣的其他否定形式,如(不能,沒

    0熱度

    2回答

    我在Python中的新手。我想知道如何標記來自文件的twitter數據。 我的代碼是: with codecs.open('example.csv', 'r',"utf-8") as f: for line in f: tweet = f.readlines() tokens = word_tokenize(tweet["text"]) print(t

    0熱度

    1回答

    我使用以下設置來創建ES索引。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"] }

    -1熱度

    1回答

    我想在ElasticSearch中將「a.b.c」標記爲a, a.b, a.b.c, b.c, b, c部分。我嘗試了一些正則表達式,但更新tokenizer是乏味的,我在正則表達式非常糟糕,所以我尋求幫助。 我已經嘗試過這個公式,但他們並沒有給我什麼,我想: [(^\\.)]+ [(.+\\.)]+ [^\\p{L}\\d]+

    1熱度

    1回答

    使用R編程,我需要從文件中獲取令牌ngram = 2。 的問題是,它結合了線,有的令牌有一部分在行結束,並在下一行 Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 在文件工作 開始另一部分,我有前兩個行: it architect it helpdesk support agents 我

    3熱度

    1回答

    我在R中使用tokenizers包來標記文本,但非字母數字符號(如「@」或「&」)已丟失,我需要保留它們。下面是我使用的功能: tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim

    1熱度

    1回答

    我們可以在elasticsearch中平等地評分原始字符串和同義詞嗎? 例如,我創建了同義詞文件爲: PVT,私人 有限公司,有限 我創建使用同義詞象徵過濾器的索引。然後我索引的兩個文件: curl -XPOST "http://localhost:9200/test1/test?pretty" -d '{ "entityName" : "ABC International Pvt Lt

    2熱度

    1回答

    我使用Elasticsearch內置簡單分析器https://www.elastic.co/guide/en/elasticsearch/reference/1.7/analysis-simple-analyzer.html,它使用小寫標記器。和文本蘋果8 IS真棒被標記爲以下格式。 "apple", "is", "awesome" 你可以清楚地看到,它錯過來標記號8,所以現在如果我只是8

    0熱度

    1回答

    我想使用Language.Parser類的ParseInput方法從腳本獲取所有令牌。 問題是,只要我沒有在腳本中的任何評論,它的工作正常,但當我添加評論停止進一步解析。實際上,它將整個評論和評論後面的所有行作爲最後一個標記。 如果您測試代碼,您會看到我正在根據您在腳本中放置註釋的位置進行更改。 我已經使用了test.ps1中的測試代碼,使用不同代碼測試的代碼仍然表現相同。 $ParsedScri