如何量化兩個詞的含義差異？例如「鳥」和「椅子」

-1

編輯：我有一些術語/主題，我想量化這些術語/主題在含義或領域上彼此的差異。以下是我想要應用它的用例：如何量化兩個詞的含義差異？例如「鳥」和「椅子」

現在我有Twitter的數據集關於特定的板球比賽（鳴叫與此匹配的標籤）。我想看看有多少其他與板球比賽無關的話題在這樣的推文中出現。例如，如果有人開始在這樣的推文中使用「敘利亞庇護所」，這與蟋蟀遊戲的主題無關。我的基本方法是從這些推文中提取主題，然後確定哪些主題與板球領域密切相關，哪些不是。

這個問題聽起來比在Stackoverflow :)中的NLP範圍更深。也許你可以給我們這種量化的用例。 – Mehdi

嗨@Mehdi，現在我有twitter的數據集。推文是關於板球比賽的。我想確定在這樣的推文中有多少其他話題。所以基本上我會從推文中提取主題，然後看看這些主題與「板球」的領域有多無關。 – user3046442

統計上，你可以看看word2vec,fasttext和類似的模型。這裏的「差異」可以是向量空間中兩點之間的距離（歐氏或餘弦相似度）。簡而言之，您將語料庫加載到創建n維空間的引擎中，將空間中的單詞（有時是文檔或字符）作爲點放置，使得出現在類似上下文中的單詞具有近似表示（向量）。

大多數此類表示的一個缺點是反義詞經常彼此接近：例如在「我愛你」和「我恨你」中，愛與恨的關係非常相似。

從語義的角度來看，當您添加標籤本體時，您可以使用結構化的知識庫或本體。一種選擇是在兩個術語之間的分類中定義「距離」。您可以檢查它們是否與兄弟姐妹出現在同一級別，其中一個是其他關係的父母。我相信最直接的方法是爲每個關係手動定義權重，但圖表遍歷和聚類的統計方法也適用。

對於類，您可以使用多少個實例以及這些實例之間的任何關係。例如，您可以計算「鳥」和「椅子」之間的距離，根據您與之有「關係」的鳥和椅子的實例的數量。希望「人物」和「椅子」會更接近，因爲大部分人物都會有一個指定的「椅子」物體。

2017-06-21 10:55:14 Yasen

謝謝。是否有任何現有的分類法和本體論？據我所知，ontoligies是特定領域和noew域，你必須創建新的本體 – user3046442

你可以檢查https://developers.google.com/knowledge-graph/（前Freebase）http：//wiki.dbpedia。 org /，或http://linkeddata.org/ – Yasen

非常感謝..... – user3046442

要快速瀏覽一下，你可以用鳥名詞-1和椅子名詞-1，共發現在： http://labs.fc.ul.pt/dishin/ 它給你：

雷斯尼克0.315625756544

林0.0574161071905

江& Conrath 0.0964964414156

2017-07-20 17:39:44 FCouto

回答