string-matching

    -1熱度

    2回答

    我有一個數據框如下,我想根據票號連續排列順序中的行(如果連續重複,請丟棄它們)並確定它們如何交叉人。 ticket<- c("1", "1", "1", "2", "2", "2", "2") name<- c("Olg", "Jan", "Jan", "Olg", "Jan", "Jan","Olg") df<- data.frame(ticket, name) 我想建立

    0熱度

    1回答

    我在想如何根據Levenshtein distance(字符串編輯距離)生成一組類似的字符串。理想情況下,我喜歡傳入一個源字符串(即用於生成與其類似的其他字符串的字符串),需要生成的字符串數量以及閾值作爲參數,即在字符串之間的相似性生成的集合應該大於閾值。我想知道我應該用什麼Python包來實現這個目標?或者任何想法如何實現這個?

    -1熱度

    1回答

    我想問你,如果有像R. 在Excel中的「匹配」。例如類似的功能如果我有與人們的教育程度的數據集:由國際教育標準分類 > edu chr [1:4] "Bachelor" "NA" "Master" "Superieur" 和一個國際測繪系統: > ISCED Main education program English translation Code Brevet

    0熱度

    1回答

    我有一個縮寫列表,例如「ccd」,「bbq」,「phd」等。 例如,讓我們「燒烤」,我們試圖映射此abbrevation到字符串列表, 燒烤國家 - 實際的答案應該是這個 燒烤煙霧和燒烤 啤酒和燒烤蓋茨 我們如何決定縮寫屬於哪個字符串。我曾嘗試通過KMP和Longest Common Subsequence算法使用字符串匹配,並增加了對以前匹配的字符串添加更多值的調整。 有沒有什麼數據結構可以幫助

    0熱度

    1回答

    我正面臨一個與字符串匹配有關的問題。 比方說,例如,我有100個產品ID,從1到100,我有相應的圖像與產品ID像,1.jpg,1_1.jpg,1_2.jpg,1_3.jpg,2_1.jpg,2_2.jpg, 2_3.jpg .... 100_1.jpg,100_2.jpg,100_3.jpg。 現在我想所有的產品ID和其對應的圖像添加到Python字典 for i in productidlis

    0熱度

    1回答

    我試圖在數據框中創建一個唯一列,其中兩個字符串的左邊兩個字符串之間的字符數字匹配。 每一行代表有一個比較字符串,我們希望用它作爲針對給定字符串的用戶的測試。給定一個數據幀: df <- data.frame(x=c("yhf", "rnmqjk", "wok"), y=c("yh", "rnmj", "ok")) x y 1 yhf yh 2 rnmqjk rnmj 3 wok

    1熱度

    3回答

    給定一個文本文件,它看起來像這樣:我一直在努力,想了許多不同的方式有弦Samsung Galaxy S6不匹配Samsung Galaxy S6 edge Samsung Galaxy S6 active SM-G890A 32GB Camo White (AT&T) *AS-IS* Cracked Screen Samsung Galaxy S6 SM-G920 - 32GB - White

    1熱度

    1回答

    我一直在使用[Simmetrics] [1] Java庫,併成功比較兩個字符串並取得了很好的成功。但似乎有兩種方法,我需要將兩者結合起來用於我的場景。 目前我使用餘弦相似性(我使用一些簡單化者,但這裏省略,以保持代碼的簡單) StringMetric metric = with(new CosineSimilarity<String>()) .tokenize(Tokenizers

    1熱度

    1回答

    我想操作數組元素。因此,如果某數組元素的字母n或m結束,以下元件例如apple然後我想刪除的「蘋果」,「一個」,讓我得到的輸出:Array ([0] => man [1] => pple) 我的代碼: $input = array("man","apple"); $ending = array("m","n"); $example = array("apple","orange");

    2熱度

    1回答

    我嘗試使用stringr中的str_match,它適用於一個簡單的測試示例。不過,這並不對數據進行工作,從rtweet回來: 這是一個虛構的數據幀,它確實工作: test <- data.frame(c(1), c('something')) names(test) <- c('value', 'item') subset(test, !anyNA(str_match(item,'thing