我有一個巨大的數據集,數據集包含超過10,000個向量,每個向量現在是252維度,並在我繼續之前,因爲我不是從機器學習或數學領域。我有一些問題要問:聚類巨大的高維向量
1.我想減少每個向量的維數,但我不知道選擇哪個算法。
2. KD-Tree是不錯的選擇嗎?
我有一個巨大的數據集,數據集包含超過10,000個向量,每個向量現在是252維度,並在我繼續之前,因爲我不是從機器學習或數學領域。我有一些問題要問:聚類巨大的高維向量
1.我想減少每個向量的維數,但我不知道選擇哪個算法。
2. KD-Tree是不錯的選擇嗎?
來吧,和嘗試不同的降維技術。沒有一般最好的,你需要嘗試出來的東西。
K-d-tree通常不適用於252維度。因爲它是爲歐幾里得和曼哈頓距離而設計的,而這些在252維度上並不太有意義。
但是隻有10000個實例,您可能根本不需要索引。這很小。 10000 * 252 * 8字節= 20 MB,這不是很多。它很容易放入主存。
非常感謝,那些日子我發現我的數據集可能包含超過300,000個載體。我閱讀了許多文件,他們建議使用KNN來分類載體。您能給我更多的建議來處理它嗎? – user2317844 2013-05-06 03:13:46
那麼,你有什麼嘗試? – 2013-05-06 19:32:45
我剛試過KNN算法,但計算時間超過30分鐘。 – user2317844 2013-05-07 02:49:06
10.000不是「巨大的」。事實上,對於一個252維空間來說,它非常低,並且因此你的聚類結果可能會變得任意。 252×252矩陣有63.504個單元。 您是否嘗試過沒有降維和索引?它花了多少時間? – 2013-04-26 17:12:24