0
我有一個載體集在多維空間(可能是幾千個維度)。在這個空間中,我可以計算出兩個向量之間的距離爲,距離爲(作爲它們之間角度的餘弦,如果它很重要)。我想要的是可視化這些向量保持距離。也就是說,如果在多維空間中矢量a
比矢量b
更接近於矢量c
,則它在二維圖上也必須更接近它。有沒有任何一種圖表可以清楚地描述它?如何在二分圖上描繪多維矢量?
我有一個載體集在多維空間(可能是幾千個維度)。在這個空間中,我可以計算出兩個向量之間的距離爲,距離爲(作爲它們之間角度的餘弦,如果它很重要)。我想要的是可視化這些向量保持距離。也就是說,如果在多維空間中矢量a
比矢量b
更接近於矢量c
,則它在二維圖上也必須更接近它。有沒有任何一種圖表可以清楚地描述它?如何在二分圖上描繪多維矢量?
我不這麼認爲。想象一下四面體的任何二維圖像。沒有辦法描繪兩個維度中距離彼此相等的四個頂點。所以你將很難試圖描繪兩維以上的三維以保持它們相互距離的n維向量。
(但是現在我不能想了嚴格的證明。)
更新:
好了,第二個想法,也許是愚蠢的:如果你試圖找到更緊密關聯的對象/文本聚類,然後計算出每個簇的中心或平均向量。那麼你可以減少問題空間。首先找到保存它們相對距離的二維組合。然後插入主要向量,僅考慮它們在一個聚類內的相對距離以及它們到兩個或三個最近聚類中心的距離。
這種方法對於大量的向量是可以的。但是它不會準確,因爲總會有一些類似的向量在遙遠的地方結束。
我想過了,但有[Johnson-Lindenstrauss引理](http://en.wikipedia.org/wiki/Johnson%E2%80%93Lindenstrauss_lemma),其中指出高維的一小組點空間可以以這樣的方式投影到較低維空間中,使得點之間的距離幾乎保持不變。此外,我不需要嚴格保留_Euclidean distance_ - 任何類型的圖表(直方圖,樹狀圖等),可以顯示距離,都是合適的。現在我正在考慮圖形,頂點是點,弧的粗細顯示距離。雖然,我希望有更好的選擇。 – ffriend 2011-04-08 16:26:17
我明白了,不知道這個引理。你能解釋問題域嗎?也許有一個不同的想法。 – jammon 2011-04-08 20:46:03
@jammon:它用於文本聚類/關聯。我使用[向量空間模型](http://en.wikipedia.org/wiki/Vector_space_model)來查找類似的文檔,但將它放在繪圖上並不是微不足道的。我也在考慮使用類似[Circos]的東西(http://flowingdata.com/2009/02/06/ranking-and-mapping-scientific-knowledge-eigenfactor/#more-1329),儘管如此,我仍然避難沒有清楚的想法,如何去做。 – ffriend 2011-04-08 22:12:48