2015-09-06 19 views
-1

這不是一個直接編程相關的問題,而是關於選擇正確的數據挖掘算法。建議這種情況的數據挖掘算法

我有一些文件夾假設100個文件夾,這些文件夾的內容是圖像和文本文件,我有這些文件夾的excel表(100表),這意味着每個文件夾都有特定的表格,這個excel表格內容如下:

在標題(列標題)中包含此文件夾的內容,並且行包含我將檢查的文件(我的測試文件)此表中的值是o和1的文件,如果在該文件夾中找到該文件,則值爲1否則O,這些測試文件名相同的所有文件夾,

問:什麼是最好的數據挖掘算法可以在Excel文件表工作,可以羣集這些文件夾淺編輯測試文件內容,例如羣集1包含文件夾,其中包含文件1和文件20以及文件25 ..等等..考慮使用matlab語言?

感謝...

回答

1

這裏的英語是有點混亂,所以我最好解釋這個問題,我可以。你想在這裏做什麼似乎並不需要任何複雜的算法。繼續採取您的Excel數據並將其導出爲CSV,以便您可以在Matlab中工作。

現在你有數據如下:

Folder -> [ Files ]

你可能想建立一個索引是這樣的:

File -> [ Folders ]

這樣一來,你當你提出這樣的問題: 「文件夾中包含哪些文件1,20和25」,你可以看一下(在固定時間)3兩件事:

  1. 文件夾包含文件包含文件包含文件25

再取那些集合的交集20個

  • 文件夾1個
  • 文件夾。

    ============================================== =====

    你可能有興趣做的另一件事是「集羣」。爲此,請繼續並將文件夾描述符(1和0)作爲特徵/向量。然後繼續並在其上運行任何聚類算法。 K-means聚類是一種在Matlab中實現的簡單方法。

    [1] https://en.wikipedia.org/wiki/Cluster_analysis