2016-02-28 33 views
1

我想從Konkani語言中找出語料庫中的新概念。 我已經在1)領域具體語料庫2)在報紙語料庫上訓練了兩個模型。使用Word嵌入從大型語料庫查找概念

我已經使用Gensim word2vec來訓練模型,但是我無法在向量空間中近距離地獲得類似含義的術語。

關閉的單詞顯示彼此沒有同義關係。它們的相似性和一些隨機單詞一樣好。

我在做什麼錯了?

回答

0

你的語料庫有多大?

爲了讓您的訓練有素的矢量有意義,您至少需要1億個詞語集(假設大約有1-2百萬個獨特詞)。

如果您使用了負面抽樣而不是分層抽樣,您可以懷疑採樣方法,但我仍然認爲小的語料庫大小是您的主要問題。