2016-06-22 70 views
0

我想知道是否有一個基本意思是「是」或「否」的詞的語料庫?如果不是,那麼收集這些信息的可能算法/技術是什麼?類似於或意味着'是'和'否'的詞

我剛開始學習NLP,所以如果這是一個明顯的問題,請耐心等待。謝謝!

回答

1

解決此問題的一種方法是在某個語料庫中找到相似的單詞。

爲了測量文字相似性,您可以使用由Mikolov等人引入的名爲Word2Vec的模型。

如果您在單詞語料庫上訓練此模型,它會將每個單詞映射到它在向量空間中的表示形式。基本上每個單詞將由一個向量表示(其中的Nome Word2Vec)。 Word2vec爲傾向於出現在相同上下文中的單詞分配高度相似性。

之後,您可以通過計算這兩個單詞向量的餘弦相似度來衡量單詞相似度。

這裏是在產品評論文集訓練Word2vec的時候,我得到的結果:

  • 前4個最相似的詞是:
  • 「是啊」,「哦」,「嗨」, '肯定'
  • 前4分最相似的話沒有:
  • '任何',明顯的」, '拒絕',零個

一些Word2vec引用:

https://radimrehurek.com/gensim/models/word2vec.html

http://rare-technologies.com/word2vec-tutorial/

編輯: ,可找到有關的話不和是在一般詢問者網站,以及

http://www.wjh.harvard.edu/~inquirer/No.html

http://www.wjh.harvard.edu/~inquirer/Yes.html

希望這有助於。

+1

非常感謝您提供一個徹底的答案!我猜想用許多「是」,「是」,「是」等等的例子來查找語料庫是很重要的。 – user1330974