2013-07-10 28 views
1

我正嘗試使用對象之間的關係進行有監督的學習任務。 例如,給定一個像「貓吃魚」這樣的文本,我想使用Cat-eat-fish關係作爲學習任務的一個特徵(即識別詞的意義)。因此,我想用數字來表示這種關係,以便我可以將它用作學習模型的一個特徵。任何關於我如何實現這一點的建議。我正在考慮將它散列爲一個整數,但這可能會造成兩個關係在語義上相同的挑戰,相同的可能會有兩個不同的散列值。我理想的情況是想要2個類似的關係(例如生命和居住)來哈希到相同的值。我想我還需要弄清楚在哈希之前是否可以規範化關係。將關係表示爲監督學習任務的功能

也許不使用數字特徵的其他方法也是有用的。我也想知道是否有基於圖形的方法來解決這個問題。

+0

你最終做了什麼? – erichfw

+0

我剛剛結束了使用基於圖的方法,其中關係是兩個實體之間的邊。 – vvknitk

回答

0

我建議爲所有可能的關係類型製作(非常大數量的)二進制特徵,然後可能在結果(非常稀疏)的特徵空間上運行某種形式的維度降低。

另一種減少稀疏性的方法是用實體類型替換裸露的單詞,例如[動物]吃[動物],甚至[動畫]吃[動畫],然後使用二進制在這個空間的功能。您希望避免在單個維上映射到數值,因爲如果您這樣做,就會在特徵之間施加虛假的序數關係。

0

如何用動詞表示動詞(通常是主語)之前的典型單詞以及動詞後面的典型單詞(通常是對象)來表示動詞。假設你可以使用500個最常用的單詞(或者甚至更好的最歧視單詞),那麼每個動詞將被表示爲1000維向量。向量中的每個要素都可以是二進制的(是否存在頻率高於某個閾值的單詞)或純計數,或者可能是最好的對數。然後,您可以運行PCA將矢量減少到一個更小的維度。

上面的方法是概率性的,這可能是好的或壞的取決於你想要什麼。如果你想用大量的手工輸入來完成它,那麼就看情況語義。