2010-05-22 106 views
9

在數據挖掘領域,有沒有具體的子學科被稱爲「相似性」?如果是的話,它會處理什麼。任何示例,鏈接和引用都將有所幫助。「相似性」數據挖掘

此外,作爲新的領域,我想對數據挖掘和人工智能如何密切相關的是社區的意見。他們是同義詞,是另一個的子集?

在此先感謝您分享您的知識。 「相似性」(這功能,你解壓,你跟他們以後做什麼)的

+0

相關:http://stackoverflow.com/questions/3007790/發現最最接近的匹配 – Betamoo 2010-06-09 17:10:44

回答

9

在數據挖掘領域,有沒有一個叫做'相似性'的特定子學科?

是。數據挖掘和機器學習中有一個稱爲度量學習的特定子領域,旨在學習數據實例間更好的距離度量。

你知道以下任何概念?

Euclidean distance

Mahalanobis distance

Pearson correlation

Cosine similarityhere

內核函數

你知道這些後,你就會知道什麼是 '相似性'。

我想社區對數據挖掘和人工智能密切相關的意見。

很難區分什麼是數據挖掘,什麼是AI。當你是新人時,不要討論這個問題。當你在數據挖​​掘中學習了10種算法並閱讀了一些AI書籍時,你就會知道它們之間的區別和關係。

2

適當的定義幾乎是集羣的定義,和聚類是數據挖掘的一個相當寬的子場。

如果您將AI的標準玩世不恭解釋爲一組我們無法解決的問題(事實上,我們無法指定足夠好以開始解決問題),數據挖掘一旦進入其中的空間你正在尋找相關性開始大於你的算法可以處理。

2

只是強調「相似性」概念的重要性。

數據挖掘(AI,機器學習,造型等)是關於把一些功能或者它的最大值或最小值。以最佳的優化/學習/挖掘算法和錯誤的功能,你會得到一個完整的垃圾。請注意,我們使用「value」而不是「valueS」。這是因爲沒有(根據我的最佳知識)算法(計算或其他)能夠優化多個值。然而,在我們的宇宙中,複雜的優化比單維優化更頻繁(我們希望變得豐富,年輕和健康)。這就是爲什麼存在大量相似性和其他得分功能的原因。這就是爲什麼它們中沒有一個是「合適的」的原因

1

相似性是一種用於數據挖掘任務(如聚類,分類)的概念。根據您擁有的數據類型,您可能會使用不同的相似性度量,例如文本文檔的餘弦相似度,歐幾里得距離等。

0

數據挖掘中使用了很多相似性度量。文本挖掘,發現文本中的相似性,餘弦相似度,Jaccard相似廣泛應用於

僅供參考,你可以看到拉加和amnnings信息檢索書