string-matching

    1熱度

    1回答

    我正在使用Python中的模糊wuzzy,雖然它聲稱它與levenshtein距離一起工作,但我發現許多單個字符不同的字符串會產生不同的結果。例如。 >>>fuzz.ratio("vendedor","vendedora") 94 >>>fuzz.ratio("estagiário","estagiária") 90 >>> fuzz.ratio("abcdefghijlmnopqrst"

    0熱度

    2回答

    說我有一個列表match = ['one', 'two', 'three'] 和我的論點foo = ['something', 'something_two', 'something', (...)] 我只想做這個項目的操作,如果它匹配任何項目在列表在match列表: for each in foo: for match_item in match: if match_ite

    0熱度

    1回答

    好吧,我現在有這個問題。我有一個矩陣A,其rownames是另一個矩陣B中字段的值。我想在第二個矩陣B中找到我的rownames的索引。現在我正在嘗試執行此操作which(A$field == rowname_A)。不幸的是,兩件事情都出現了 - rowname_A變量是字符類。它是這種格式,"X12345"。 A$field的值是類型因子。有沒有辦法從角色中刪除附加的X,將其轉換爲因子並進行比較

    0熱度

    2回答

    我需要自動匹配產品名稱(食品)。問題類似於 Fuzzy matching of product names 主要問題是即使相關關鍵字的單個字母更改可以產生巨大差異,但要檢測哪些是相關關鍵字並不容易。考慮三個產品名稱Lenovo T400,Lenovo R400和New Lenovo T-400, Core 2 Duo。 前兩個是可笑的,相似的字符串以任何標準(好吧,同音可能有助於disinguis

    1熱度

    7回答

    我收到兩個IP地址陣列,這些陣列的格式不同。應該從地址數組中刪除IP數組中的任何值 - 但只有在IP匹配完全相同的情況下。我寫了下面,但問題是,例如,192.168.0.1將匹配192.168.0.11,然後從地址數組中刪除192.168.0.11,這是不是一個有效的結果。地址數組需要以與接收到的格式相同的格式返回。請幫忙嗎? :) var addresses = [{ Value :

    0熱度

    1回答

    我想創建某種字典來追加我的結果並使用jaro距離函數獲得最佳匹配。 這是我嘗試匹配2個列表並獲得最佳匹配名稱的一部分。 例子: import jellyfish jellyfish.jaro_distance(u'jellyfish', u'sellyfish') output: 0.9259259259259259 我所試圖做的是: listA = ['grellofish','me

    -1熱度

    1回答

    正則表達式匹配^(?s).*?HOLIDAY.*?INN.*?EXPRESS.*?$和^(?s).*HOLIDAY.*INN.*EXPRESS.*$使用.*?而不是.*有什麼好處? 換句話說就是正則表達式量詞的區別:.*和.*?

    0熱度

    1回答

    我有兩列。其中有一個像值: 0008347_abcd 2008756_abgr 0008746_gss1 ....... ,並用4位數字的第二列,有些上面列條目將部分匹配即 8347 8746 ... 我想找到其中的第一列項的有部分匹配第二欄中的條目。它可以返回任何東西(true false,0 1),我只是想找到它們。所以在上面的例子中它會標記第一個和第三個值。此外,第1列中可

    0熱度

    2回答

    我想匹配給定文本文件中的條目列表。這個清單非常龐大。它是一個組織名稱列表,其名稱可以有多個單詞。每個文本文件都是一種常見的寫法,有幾段文字,每個文本文件約爲5000個字。它是一個純文本內容,我沒有明確的界限可以找到組織名稱。 我要尋找由從列表中的所有條目中搜索文本文件,並取其得到匹配的識別和標記的方式。 有沒有任何工具或框架來做到這一點? 我試圖去通過所有維基百科中列出的文本挖掘工具,但沒有一個似

    1熱度

    1回答

    第一個匹配的文本詞典術語我有條款 terms <- c("hello world", "great job") terms <- as.data.frame(terms) 一本字典,我想尋找額外data.frame第一場比賽包含文件 doc <- c("i would like to say hello worlds", "hey friends hello world everyone",