-4

我有一個數據集的單詞和文本,我想使集羣(通過K均值)或任何其他無監督/監督學習方法來區分單詞,例如,單詞'約翰'將被分類作爲一個名稱(並將與其他人的名字聚集在一起),'巴西'作爲一個地方等等。 有沒有我可以用來解決問題的模型。 我聽說過的n-gram,但我不知道如何繪製在X,Y情節或等
P.S的n元語法的概率,如果你有這將是美妙的文本挖掘和機器學習

+0

如果你只關心「名稱」和「地點」,你應該尋找命名實體解決方案。否則,您可能希望找到/開發標籤數據(包含您關心的標籤)的良好來源,並根據該標籤學習分類器。 – greeness

+0

您正在描述*監督*任務,分類。 –

+0

我想對數據進行聚類,然後制定決策邊界,以便能夠近似字類型(羣集將最終標記爲類) – DavidOooO

回答

0

如何word2vec和嵌入物的例子?
https://deeplearning4j.org/word2vec

+0

如果您沒有預定義的類,則word2vec是一個很好的解決方案。這裏你是tensorflow中的解決方案https://www.tensorflow.org/versions/r0.11/tutorials/word2vec/index.html你可以用矢量的形式表示單詞,然後使用例如餘弦距離做羣集。如果你有預定義的課程,那麼你必須使用監督學習。 – Rob