2013-11-26 96 views
0

我該如何着手找出兩個完全不同但相關的短語之間的關係。例如: 1)「今日社交媒體網站...」 2)「Facebook是非常流行的社交網站...」如何找到兩個短語之間的關係?

雖然這兩個短語實際上沒有太多共同點,但它們都是(因爲Facebook是今天的社交媒體網站)。我如何量化這種關係(如果它甚至可能的話)?

+0

仍然不確定這個問題。如果我假設你正在尋找實體之間的相似性或聯繫,我是對的嗎?甚至短語是等同的? – rishi

+0

@ rishi對不起,不清楚。我試圖根據完全匹配的術語找出兩個短語之間的關係,這些關係不一定是相似性或物理連接。相反,這個想法是找出這些短語之間的聯繫,因爲一個人可能:基於外部信息和推論... –

回答

4

簡單,無效的方法:計算共同詞(和/或單詞本身)的字數,或兩個句子之間的編輯距離,但使用單詞而不是字符。在這種情況下,會發現兩個句子中都出現「社交」一詞。您還可以使用一些同義詞庫數據找到一種檢測同義詞的方法,例如「網站」和「網站」。這可能需要一些工作。常見的詞語(「和」,「the」,...)可以忽略不計,以減少巧合匹配的機會。

細化:保持某種字之間的聯繫(如「臉譜」和「網絡」)圖形的,立足於他們一起出現的頻率字與字之間的聯繫的重量,並在基地的相關性指標那。保持經常出現的單詞列表,並忽略它們。顯然這取決於你的算法有一些有代表性的「訓練數據」。

複雜,有效的方法:閱讀機器學習。

3

這是一個非常普遍的問題,您將不得不採用多種方法來獲得任何可觀的結果。實際上你所說的是NLP的最終目標。我建議你將問題分解成片,並逐一解決每個片段。

拼圖的第一部分是瞭解兩個句子是否在談論相同/相似的實體。這可以通過在不同句子中識別主語,賓語,動詞,位置參考,工具參考,賓語參考等來完成。然後這些參考可以相互比較。我想到的一個方法是查看字網距離。你將不得不在一段時間內建立你的詞彙量。

難題的第二部分是解決句子的精神問題。您將不得不在這裏與語言學一起使用機器學習方法。

正如我所說,這是一個非常普遍的問題,因此很難一次解決。如果我是你,我會按以下方式解決問題:

第1步。首先將我的解決方案限制爲一個域。這將幫助我建立更好的本體/詞彙,更好地訓練我的模型。

第2步:解決實體接近,並嘗試瞭解哪些句子是在談論類似的主題或者是指向類似的對象等。這一步是更多的是語言問題

步驟3:用機器學習的幫助嘗試找到具有類似氣質和音調的句子。

第4步:移動到下一個域並重復這些步驟。

希望這會有所幫助。

相關問題