2015-06-12 50 views
1

我具有匹配的兩個字符串爲「更一般的」,「少一般」,「相同的含義」,「相對的意思是」等語義匹配字符串 - 使用word2vec還是s-match?

琴絃可以來自任何域的這個問題。假設字符串可以來自人們的電子郵件。

舉個例子,

String 1 = "movies" 
String 2 = "Inception" 

在這裏,我應該知道,盜夢空間比電影(有點is-a的關係)

String 1 = "Inception" 
String 2 = "Christopher Nolan" 

在這裏,我應該知道,盜夢空間是少得一般一般比克里斯托弗諾蘭

String 1 = "service tax" 
String 2 = "service tax 2015" 

一眼看來,S比賽將做工作。但我不確定S-match是否可以用於WordNet或GeoWordNet以外的知識庫(如他們的頁面所述)。

如果我使用word2vec或​​,我想它可以給我相似性分數。但是它是否支持告訴一個字符串是more general還是less general比另一個?

但我確實看到word2vec可以根據訓練集或大型語料庫像維基百科等

在中途有人扔光前進?

回答

0

機器學習方法的當前使用,如word2vec和​​用於建模單詞是基於distributional hypothesis。他們根據上下文來訓練單詞和短語的模型。這些單詞模型沒有本體論方面的內容。在受過最好訓練的情況下,基於這些工具的模型可以說兩個單詞是否可以出現在相似的環境中。這就是他們的相似性測量如何工作。

的Mikolov紙(abc),這表明這些模型可以學習「語言的規律」沒有任何本體論的測試分析,它僅僅表明,這些機型都具有成員之間預測「相似的單詞對「。這種預測對你的任務沒有幫助。這些模型甚至不能識別與關聯相似相反的(例如閱讀此頁SimLex test set)。

我要說的是,你需要一個本體論的數據庫解決您的問題。更具體地瞭解您的例子,它似乎是在你的例子String 1String 2

String 1 = "a" 
String 2 = "b" 

你嘗試檢查entailment關係中的句子:

(1)「Çb

(2)」c is a

(3)「ca」相關。

其中:

(1)需要(2)

(1)需要(3)

在你的兩個第一個例子,你可以使用seman抽象知識庫來解決問題。但是在理解兩個短語之間的區別之前,你的第三個例子可能需要語法分析。例如,這些短語:

「男人」

「所有的人」

「高大的男人」

「黑衣人」

「一般的男人」

它需要一個邏輯理解來解決你的問題。但是,您可以根據經濟語言來分析,在短語中添加更多單詞通常會使其較不普遍。與較短的短語相比,較長的短語不太一般。它沒有給你一個精確的工具來解決問題,但它可以幫助分析一些沒有特殊詞彙的詞組,如all,generalevery

+0

謝謝。它有助於更​​好地理解。 – Thalapathy