「模糊查找」添加到結果中

使用Excel 2010和Microsoft「模糊查找」功能添加2個工作表中的列。第一張工作表大約有48,000行（x 3列），第二張工作表大約有23,000行（x 5列）。「模糊查找」是比較每個&中的一列，並返回兩者之間的相似性。「模糊查找」添加到結果中

模糊查找似乎運行沒有問題，並且結果 - 在大多數情況下 - 似乎是正確的。例如：

W2-NK22/16在一張工作表中顯示與W2NK2216的相似度爲0.97。

但並非在所有情況下。有些我預計會有某種程度的相似性，而是由插件返回0.000。例如：

761689700000

應該有一定程度的相似性：

761689700000EN4239

但模糊查找的回報0.000爲它添加。這兩個字段都被格式化爲文本。之前或之後都沒有空格，前12個字符是相同的。

我已經卸載&重新安裝加載項，並使用了默認設置。我更改的唯一其他模糊查找設置是在配置 - >全局 - 使用ApproximateIndexing。我已經把它設置爲既沒有影響也沒有影響的假和真。

我有幾百個像上面那樣顯示0.000相似度的例子，但經過檢查看起來非常相似。在&之後的行顯示不同程度的相似性。

任何想法或想法，爲什麼這似乎無法正常工作，或更好的方式來做到這一近似匹配，將不勝感激。

來源

2015-10-12 steve_o

我不知道它是否認爲每個條目的一個標記而不是每個字母的標記。將「761689700000EN4239」更改爲「761689700000 EN4239」，然後重新運行。如果它認爲他們現在是一場比賽，這是一個令人頭痛的問題。這是很好的知道，但我不知道如何解決它。 –

@DickKusleika - 我從2015年1月剛剛閱讀你的（非常好的）文章 - 這是我找到的更有幫助的文章之一。我按照你的建議做了（變種... 700000EN4239到... 700000 EN4239） - 它現在返回正確的條目，相似度爲0.90。如果沒有別的，至少我明白爲什麼每個相同的12個字符不匹配。對於我來說，爲什麼每個條目都是一個標記而不是每個字符，因爲它決定了相似性。我猜測開銷會很大，讓它按字符工作。 –

如果不存在空格或其他特殊字符，我似乎是一個好主意，可逐個字符地進行標記。有了插件的所有選項，我想知道它是否有能夠強制這種情況的選項。不幸的是，我們已經達到了我在這方面知識的極限。我看到的所有設置都看起來很有希望。 –

嘗試添加內容，即使這種情況是2歲。希望有人可以使用它。

For Transformations，Tokenization等 - 查看安裝了模糊查找的相同文件夾。有一個示例文件叫做Portfolio.xlsx和一個相應的Readme.docx文件。這些非常有幫助。坦率地說，關於Fuzzy Lookup加載項的文檔非常糟糕（但它是免費的）。自述文件討論了稱爲「EditTransformationProvider」的權利，可能有助於解決這類問題。

我在工作中對幾個過程實施了模糊處理，在Excel中工作時我們節省了數百個工時。這不是玩笑。

來源

2017-12-05 19:30:38

「模糊查找」添加到結果中

回答

相關問題