使用Excel 2010和Microsoft「模糊查找」功能添加2個工作表中的列。第一張工作表大約有48,000行(x 3列),第二張工作表大約有23,000行(x 5列)。 「模糊查找」是比較每個&中的一列,並返回兩者之間的相似性。「模糊查找」添加到結果中
模糊查找似乎運行沒有問題,並且結果 - 在大多數情況下 - 似乎是正確的。例如:
W2-NK22/16
在一張工作表中顯示與W2NK2216
的相似度爲0.97。
但並非在所有情況下。有些我預計會有某種程度的相似性,而是由插件返回0.000。例如:
761689700000
應該有一定程度的相似性:
761689700000EN4239
但模糊查找的回報0.000爲它添加。這兩個字段都被格式化爲文本。之前或之後都沒有空格,前12個字符是相同的。
我已經卸載&重新安裝加載項,並使用了默認設置。我更改的唯一其他模糊查找設置是在配置 - >全局 - 使用ApproximateIndexing。我已經把它設置爲既沒有影響也沒有影響的假和真。
我有幾百個像上面那樣顯示0.000相似度的例子,但經過檢查看起來非常相似。在&之後的行顯示不同程度的相似性。
任何想法或想法,爲什麼這似乎無法正常工作,或更好的方式來做到這一近似匹配,將不勝感激。
我不知道它是否認爲每個條目的一個標記而不是每個字母的標記。將「761689700000EN4239」更改爲「761689700000 EN4239」,然後重新運行。如果它認爲他們現在是一場比賽,這是一個令人頭痛的問題。這是很好的知道,但我不知道如何解決它。 –
@DickKusleika - 我從2015年1月剛剛閱讀你的(非常好的)文章 - 這是我找到的更有幫助的文章之一。我按照你的建議做了(變種... 700000EN4239到... 700000 EN4239) - 它現在返回正確的條目,相似度爲0.90。如果沒有別的,至少我明白爲什麼每個相同的12個字符不匹配。對於我來說,爲什麼每個條目都是一個標記而不是每個字符,因爲它決定了相似性。我猜測開銷會很大,讓它按字符工作。 –
如果不存在空格或其他特殊字符,我似乎是一個好主意,可逐個字符地進行標記。有了插件的所有選項,我想知道它是否有能夠強制這種情況的選項。不幸的是,我們已經達到了我在這方面知識的極限。我看到的所有設置都看起來很有希望。 –