文本挖掘和機器學習

-4

我有一個數據集的單詞和文本，我想使集羣（通過K均值）或任何其他無監督/監督學習方法來區分單詞，例如，單詞'約翰'將被分類作爲一個名稱（並將與其他人的名字聚集在一起），'巴西'作爲一個地方等等。有沒有我可以用來解決問題的模型。我聽說過的n-gram，但我不知道如何繪製在X，Y情節或等
P.S的n元語法的概率，如果你有這將是美妙的文本挖掘和機器學習

來源

2016-11-06 DavidOooO

如果你只關心「名稱」和「地點」，你應該尋找命名實體解決方案。否則，您可能希望找到/開發標籤數據（包含您關心的標籤）的良好來源，並根據該標籤學習分類器。 – greeness

您正在描述*監督*任務，分類。 –

我想對數據進行聚類，然後制定決策邊界，以便能夠近似字類型（羣集將最終標記爲類） – DavidOooO

如何word2vec和嵌入物的例子？
https://deeplearning4j.org/word2vec

來源

2016-11-06 19:52:32

如果您沒有預定義的類，則word2vec是一個很好的解決方案。這裏你是tensorflow中的解決方案https://www.tensorflow.org/versions/r0.11/tutorials/word2vec/index.html你可以用矢量的形式表示單詞，然後使用例如餘弦距離做羣集。如果你有預定義的課程，那麼你必須使用監督學習。 – Rob

文本挖掘和機器學習

回答

相關問題