2017-06-21 34 views
-1

編輯: 我有一些術語/主題,我想量化這些術語/主題在含義或領域上彼此的差異。以下是我想要應用它的用例:如何量化兩個詞的含義差異?例如「鳥」和「椅子」

現在我有Twitter的數據集關於特定的板球比賽(鳴叫與此匹配的標籤)。我想看看有多少其他與板球比賽無關的話題在這樣的推文中出現。例如,如果有人開始在這樣的推文中使用「敘利亞庇護所」,這與蟋蟀遊戲的主題無關。 我的基本方法是從這些推文中提取主題,然後確定哪些主題與板球領域密切相關,哪些不是。

+0

這個問題聽起來比在Stackoverflow :)中的NLP範圍更深。也許你可以給我們這種量化的用例。 – Mehdi

+0

嗨@Mehdi,現在我有twitter的數據集。推文是關於板球比賽的。我想確定在這樣的推文中有多少其他話題。所以基本上我會從推文中提取主題,然後看看這些主題與「板球」的領域有多無關。 – user3046442

回答

1

統計上,你可以看看word2vec,fasttext和類似的模型。這裏的「差異」可以是向量空間中兩點之間的距離(歐氏或餘弦相似度)。簡而言之,您將語料庫加載到創建n維空間的引擎中,將空間中的單詞(有時是文檔或字符)作爲點放置,使得出現在類似上下文中的單詞具有近似表示(向量) 。

大多數此類表示的一個缺點是反義詞經常彼此接近:例如在「我愛你」和「我恨你」中,愛與恨的關係非常相似。

從語義的角度來看,當您添加標籤本體時,您可以使用結構化的知識庫或本體。一種選擇是在兩個術語之間的分類中定義「距離」。您可以檢查它們是否與兄弟姐妹出現在同一級別,其中一個是其他關係的父母。我相信最直接的方法是爲每個關係手動定義權重,但圖表遍歷和聚類的統計方法也適用。

對於類,您可以使用多少個實例以及這些實例之間的任何關係。例如,您可以計算「鳥」和「椅子」之間的距離,根據您與之有「關係」的鳥和椅子的實例的數量。希望「人物」和「椅子」會更接近,因爲大部分人物都會有一個指定的「椅子」物體。

+0

謝謝。是否有任何現有的分類法和本體論?據我所知,ontoligies是特定領域和noew域,你必須創建新的本體 – user3046442

+0

你可以檢查https://developers.google.com/knowledge-graph/(前Freebase)http://wiki.dbpedia。 org /,或http://linkeddata.org/ – Yasen

+0

非常感謝..... – user3046442