2015-10-12 127 views
1

使用Excel 2010和Microsoft「模糊查找」功能添加2個工作表中的列。第一張工作表大約有48,000行(x 3列),第二張工作表大約有23,000行(x 5列)。 「模糊查找」是比較每個&中的一列,並返回兩者之間的相似性。「模糊查找」添加到結果中

模糊查找似乎運行沒有問題,並且結果 - 在大多數情況下 - 似乎是正確的。例如:

W2-NK22/16在一張工作表中顯示與W2NK2216的相似度爲0.97。

但並非在所有情況下。有些我預計會有某種程度的相似性,而是由插件返回0.000。例如:

761689700000 

應該有一定程度的相似性:

761689700000EN4239 

但模糊查找的回報0.000爲它添加。這兩個字段都被格式化爲文本。之前或之後都沒有空格,前12個字符是相同的。

我已經卸載&重新安裝加載項,並使用了默認設置。我更改的唯一其他模糊查找設置是在配置 - >全局 - 使用ApproximateIndexing。我已經把它設置爲既沒有影響也沒有影響的假和真。

我有幾百個像上面那樣顯示0.000相似度的例子,但經過檢查看起來非常相似。在&之後的行顯示不同程度的相似性。

任何想法或想法,爲什麼這似乎無法正常工作,或更好的方式來做到這一近似匹配,將不勝感激。

+0

我不知道它是否認爲每個條目的一個標記而不是每個字母的標記。將「761689700000EN4239」更改爲「761689700000 EN4239」,然後重新運行。如果它認爲他們現在是一場比賽,這是一個令人頭痛的問題。這是很好的知道,但我不知道如何解決它。 –

+0

@DickKusleika - 我從2015年1月剛剛閱讀你的(非常好的)文章 - 這是我找到的更有幫助的文章之一。我按照你的建議做了(變種... 700000EN4239到... 700000 EN4239) - 它現在返回正確的條目,相似度爲0.90。如果沒有別的,至少我明白爲什麼每個相同的12個字符不匹配。對於我來說,爲什麼每個條目都是一個標記而不是每個字符,因爲它決定了相似性。我猜測開銷會很大,讓它按字符工作。 –

+0

如果不存在空格或其他特殊字符,我似乎是一個好主意,可逐個字符地進行標記。有了插件的所有選項,我想知道它是否有能夠強制這種情況的選項。不幸的是,我們已經達到了我在這方面知識的極限。我看到的所有設置都看起來很有希望。 –

回答

1

嘗試添加內容,即使這種情況是2歲。希望有人可以使用它。

For Transformations,Tokenization等 - 查看安裝了模糊查找的相同文件夾。有一個示例文件叫做Portfolio.xlsx和一個相應的Readme.docx文件。這些非常有幫助。坦率地說,關於Fuzzy Lookup加載項的文檔非常糟糕(但它是免費的)。自述文件討論了稱爲「EditTransformationProvider」的權利,可能有助於解決這類問題。

我在工作中對幾個過程實施了模糊處理,在Excel中工作時我們節省了數百個工時。這不是玩笑。