我必須實現一個模塊,我需要將具有類似含義的語句(字符串)分組到不同的聚類中。我讀了關於k-means,EM聚類等等。但是我面臨的問題是這些算法是用圖上的向量點解釋的。我沒有得到這些算法如何實現具有類似含義的句子(字符串)。請建議一些適當的方法。字符串聚類算法
例如, 讓我們考慮一個課堂場景.. 1)老師有充足的知識。 2)學生明白教師教什麼。 3)老師有時在課堂上守時。 4)老師在課堂上可以聽到。
可以說我們有這4句話。然後看他們,我們可以說,句子1和2具有相似的含義。但是句子3和4既不相關,也不相關。這樣我需要對句子進行分類。那麼怎麼做呢?
這是一個很大的問題。我認爲Google的Udacity的「深度學習」課程提供了一個很好的免費的使用'tensorflow'與python進行文本挖掘的介紹。 –
我不認爲這個問題有一個最佳答案,所以我投票決定將它關閉得太寬泛。這就是說 - 看一下「Word to Vector」或「Word Embedding」模型,這些模型在這方面顯示出很多承諾。 – templatetypedef