我有大量的上下文向量,我想找到它們的平均餘弦相似度。但是,通過整套計算來計算效率並不高。這就是爲什麼,我想從這組中隨機抽取樣本。如何在java中實現一組向量的隨機採樣?
問題是,每個上下文向量解釋一個詞的意義程度,所以我想做一個平衡的選擇(根據向量值)。我搜索了一下,發現我可以使用蒙特卡洛方法。我還在這裏找到了一個Gibbs Sampler示例:https://darrenjw.wordpress.com/2011/07/16/gibbs-sampler-in-various-languages-revisited/
但是,我困惑了一下。據我所知,該方法提供了一個正態分佈並生成雙數。我不明白如何在我的情況下實施這種方法。有人可以解釋我怎麼解決這個問題?
在此先感謝。
你如何定義「平衡」?每種定義的類似數量?基於類型的選擇概率?還有別的嗎? – Bohemian
我的意思是一些向量爲目標詞定義更強的含義,而其他一些則定義較弱。例如,如果我主要從弱選項中進行選擇,它會在計算平均餘弦相似性時給我一個錯誤的結果。假設我將在2000年中選擇100個向量,我想從強和弱向量中挑選。一個更強的向量的例子:(100,43,80,15)和一個弱向量:(2,0,10,0)。 –