2016-07-20 103 views
1

對於我的Doc2Vec訓練模型的簡單評估,我需要將400維向量轉換爲2維並將文檔可視化爲一組節點,其中任何兩個節點之間的距離與它們的相似度成反比(高度相似的節點靠得很近)。Python - 使用sklearn MDS類可視化Doc2Vec多維向量2D

經過一番搜索,我找到了MDS(多維縮放)和sklearn MDS庫。

現在我有2.2M向量,他們每個人都有400個維度,我不知道如何可以通過它們sklearn MDS函數以正確的語法與最低的成本。我知道在2.2M向量之間創建相似矩陣是不可能的。

回答

0

對於一個非常相似的任務,我發現在使用Macbook Pro時,即使是相對較小的數據集,減少Doc2Vec的維度(在我們的例子中從默認的100到30)對於任何類型的空間重建都是至關重要的。

This是一個很好的起點(雖然tSNE減少和過時的接口)。