2016-01-13 44 views
1

在大學我當然有圖像的某些功能(如文本文件)。我必須根據它們的多樣性對這些圖像進行排名#聚類圖像的評估分集(Weka的?)

我想到的想法是提供一個帶有圖像的k-means分類器,然後計算從一個集羣內的圖像到集羣中心的euclidian距離。然後在集羣之間進行旋轉,並始終將(接近)最接近圖像作爲中心。即,最接近質心1,然後最接近質心2,然後3 ...,然後第二接近質心1,2,3等等。

第一個問題:這會是一個聰明的方法嗎?或者我在錯誤的道路上?

第二個問題:我有點困惑。我想我會把數據提供給Weka,它會告訴我「嘿,如果我是你,我會把這些數據分成7個集羣」,或者類似的東西。我的意思是,它可以給我一些關於我需要的集羣的信息。相反,要使用simplekmeans,我應該事先知道我將使用多少個羣集......我怎麼可能知道這些?

一個例子說明我的意思:讓我們說我有3個單色圖像:淡藍色,藍色,紅色。我認爲Weka會注意到2個藍色是相似的,並將它們聚集在一起。

順便說一句我對Weka是一種新鮮感(正如你可能已經看到的那樣),所以如果你能提供一些我想migrate使用哪些函數的信息(以及爲什麼:P),我將不勝感激! 謝謝!

+0

這是什麼(最好形式上)的意思是「我有排名的圖像根據其多樣性「?我有一些想法,但有了這個想法,我不明白爲什麼多個集羣... – bartoszukm

+0

想象一下,你在網站中檢索它們:你輸入查詢「顏色」。在上面的例子中,你想要的是藍色圖像,然後是紅色,然後是淺藍色(就像紅色必須在兩者之間)。每個集羣代表一個「多樣性」。如果我也是'綠色',那會是一個更多的羣體。但是,如果我有'堰紅 - 紫',那麼它可能會進入紅色羣集。然後我的結果應該是這樣的:紅色 - 藍色 - 綠色 - 淡藍色 - 奇怪的紅色紫色 – PLB

+0

然後「我必須」是錯誤的。我基本上可以做我想做的事情。但他們建議我們使用k-means聚類,所以我認爲這是一種方法。 反正t.b.h.這是一個小組的工作,也許我的一個朋友找到了解決方案。不過,我仍然有興趣知道什麼是「好方法」。 – PLB

回答

2

簡單K-means - 是一種算法,您必須在數據集中指定一些可能的聚類。

如果你不知道有多少羣有可能是,這是更好地得到不同的算法或發現了一批集羣。

您可以使用X-means - 您無需指定k參數。 (http://weka.sourceforge.net/doc.packages/XMeans/weka/clusterers/XMeans.html

X-Means是由改進結構部分擴展的K-Means在這部分算法中,中心試圖在其區域內分裂。每個中心的孩子和自己之間的決定是通過比較兩個結構的BIC值來完成的。

,或者您可以根據AHC觀察一個切點圖 - 層次聚類算法(https://en.wikipedia.org/wiki/Hierarchical_clustering) 然後扣除了一批集羣

+0

感謝您的提示!我會看看今天或明天:) – PLB