tokenize

0熱度

1回答

該消息還應顯示用戶所做的登錄嘗試次數。如果用戶達到最大嘗試次數，程序將終止顯示消息對話框，顯示「超出嘗試次數。程序終止「。如果文本文件中只有一個密碼和一個用戶名，我的代碼將接受用戶名和密碼。如何掃描文本文件中的所有10個數據，並且如果它匹配用戶的輸入，它將授予訪問權限？我的文本文件看起來是這樣的： [awe1,pass1] [awe2,pass2] [awe3,pass3]

0熱度

2回答

Python：保留撇號與動詞

我想標記一個句子列表，但保留否定的動詞作爲唯一的單詞。 t = """As aren't good. Bs are good""" print(word_tokenize(t)) ['As', 'are', "n't", 'good', '.', 'Bs', 'are', 'good'] 我想「不是」和「是」分開。隨着word_tokenize我得到「不」。同樣的其他否定形式，如（不能，沒

0熱度

2回答

Python：如何從文件標記化？

我在Python中的新手。我想知道如何標記來自文件的twitter數據。我的代碼是： with codecs.open('example.csv', 'r',"utf-8") as f: for line in f: tweet = f.readlines() tokens = word_tokenize(tweet["text"]) print(t

0熱度

1回答

在彈性搜索中取代原始字符串

我使用以下設置來創建ES索引。 "settings": { "analysis" : { "analyzer" : { "my_analyzer" : { "tokenizer" : "standard", "filter" : ["standard", "lowercase", "my_stemmer"] }

-1熱度

1回答

用於提取文件名的模式標記器

我想在ElasticSearch中將「a.b.c」標記爲a, a.b, a.b.c, b.c, b, c部分。我嘗試了一些正則表達式，但更新tokenizer是乏味的，我在正則表達式非常糟糕，所以我尋求幫助。我已經嘗試過這個公式，但他們並沒有給我什麼，我想： [(^\\.)]+ [(.+\\.)]+ [^\\p{L}\\d]+

1熱度

1回答

從r編程中的同一行取得令牌

使用R編程，我需要從文件中獲取令牌ngram = 2。的問題是，它結合了線，有的令牌有一部分在行結束，並在下一行 Req_tok <-jobs %>% unnest_tokens(ngram,POSITION, token = "ngrams", n = 2) 在文件工作開始另一部分，我有前兩個行： it architect it helpdesk support agents 我

3熱度

1回答

如何在R中標記單詞時保留非字母數字符號？

我在R中使用tokenizers包來標記文本，但非字母數字符號（如「@」或「&」）已丟失，我需要保留它們。下面是我使用的功能： tokenize_ngrams("My number & email address [email protected]", lowercase = FALSE, n = 3, n_min = 1,stopwords = character(), ngram_delim

1熱度

1回答

在Elasticsearch中同等評分同義詞

我們可以在elasticsearch中平等地評分原始字符串和同義詞嗎？例如，我創建了同義詞文件爲： PVT，私人有限公司，有限我創建使用同義詞象徵過濾器的索引。然後我索引的兩個文件： curl -XPOST "http://localhost:9200/test1/test?pretty" -d '{ "entityName" : "ABC International Pvt Lt

2熱度

1回答

在建立的簡單分析器工作的彈性搜索分析器以及標記的數字

我使用Elasticsearch內置簡單分析器https://www.elastic.co/guide/en/elasticsearch/reference/1.7/analysis-simple-analyzer.html，它使用小寫標記器。和文本蘋果8 IS真棒被標記爲以下格式。 "apple", "is", "awesome" 你可以清楚地看到，它錯過來標記號8，所以現在如果我只是8

0熱度

1回答

ParseInput根據腳本中的註釋更改出令牌

我想使用Language.Parser類的ParseInput方法從腳本獲取所有令牌。問題是，只要我沒有在腳本中的任何評論，它的工作正常，但當我添加評論停止進一步解析。實際上，它將整個評論和評論後面的所有行作爲最後一個標記。如果您測試代碼，您會看到我正在根據您在腳本中放置註釋的位置進行更改。我已經使用了test.ps1中的測試代碼，使用不同代碼測試的代碼仍然表現相同。 $ParsedScri