我想問一下使用距離矩陣(歐幾里得)時,數據集中的稀疏性(大多數維度中的多個零值)如何影響搜索效率或準確性。我已經在ANN和FLANN中測試了這些稀疏數據集,並且導致我在很長一段時間內搜索與密集數據集相比最近的鄰居。這是爲什麼?數據挖掘中數據集稀疏性的影響
2
A
回答
2
這是一個非常寬泛的問題,沒有具體細節就很難回答。但讓我試試看。
尋找歐氏空間中的最近鄰一般需要大約m * n個計算,其中m是維數,n是樣本數。您可以用m * n繪製每個數據集的時間統計數據,並查看它們的比較結果。
對於稀疏數據集,您還可以以字典格式存儲示例。在這種情況下,平均時間約爲k * logk * n計算,其中k是非零元素的平均數(假設字典以每個特徵的隨機訪問時間爲logk的方式存儲)如果使用類似散列表logk部分幾乎不明顯)。
0
這取決於你的實現。您使用什麼,例如,在距離計算中使用稀疏優化?歐幾里德距離不是稀疏向量最明顯的距離,順便說一句。
相關問題
- 1. 數據挖掘和頻繁數據集
- 2. 數據挖掘項目數據集
- 3. 「相似性」數據挖掘
- 4. 文本挖掘稀疏/非稀疏含義
- 5. HTML數據挖掘
- 6. python數據挖掘
- 7. Kissmetrics數據挖掘
- 8. 挖掘衆包數據的合法性
- 9. 數據挖掘SSE通過集羣K
- 10. hadoop的數據挖掘庫
- 11. 是稀疏數據
- 12. SGDClassifier從稀疏的數據集
- 13. 稀疏數據幀子集的轉換
- 14. BIDS數據挖掘性能問題
- 15. 3維數據挖掘性能
- 16. 數據挖掘 - K近鄰
- 17. 休眠4數據挖掘
- 18. JSON到R數據挖掘
- 19. 數據挖掘字符串
- 20. 數據挖掘情況
- 21. R數據挖掘語法
- 22. Google數據挖掘工具
- 23. 從數據挖掘開始
- 24. 數據挖掘教科書
- 25. 數據挖掘海量數據
- 26. Web刮,數據挖掘,數據提取
- 27. 決策樹 - 稀疏數據集
- 28. 適合此數據集的數據挖掘技術
- 29. 用於數據挖掘任務的數據集
- 30. 使用數據挖掘技術的定性數據分析
我使用帶有優先搜索樹的隨機化k-d樹,不實施稀疏優化。爲什麼歐式距離不適合稀疏矢量? – Tian 2012-03-09 09:52:21