2

我正在學習This site的自然語言處理。插值的權重

我被卡在插值視頻中。

教授說:P'(W Ñ | W n-1個,W N-2)= λ * P(W Ñ | W n-1個 ,W N-2)+ λ * P(W ñ | W N-1)+ λ * P(W ñ

然後他告訴說:要設置lambdas,你需要一個'伸出'數據集並找到使該數據集的概率最大化的lambda。

這是否意味着你循環所有可能的數字(這是無窮大),然後找到它們中的哪一個最大化概率?

那麼這是不可能的權利?那麼你如何選擇lambda表達式。找到提高概率的lambda是很容易的,同樣發現概率很容易,但選擇lambda是一件大事。

請幫我選擇lambdas!

Thankyou提前!

+0

這可能是一個迴歸問題。給定的訓練集有方程左側和右側的值,可以找出最佳的λ優化。注意到你正在修課coursera,如果你看看「機器學習」課程,你會在'成本函數'講座中找到更多細節。 – Xin

回答

1

根據詞的重要性順序設置你的權重,但要確保權重加起來爲1,因爲概率不能超過1

2

這是一個最好的半受教育的猜測,但它看起來像他在做的是使用該函數的先前估計值迭代地改進他對P(Wn | Wn-1,Wn-2)的函數,作爲P(Wn | Wn-1)和P(Wn)的估計值。他假定新函數是舊函數的加權和,那些λ值是權重。這些權重必須等於一。

你的工作是找到最好的一組權重。

你解決了這樣的問題,而不是通過循環λ值(因爲你正確intuit),但與數學。在不瞭解這些功能的結構的情況下,很難說更多有用的東西。

如果你很幸運,你可以找到一個相對簡單的微積分表達式來做到這一點。如果你不走運,這將是一個相對複雜的過程,可能涉及拉格朗日乘數的方法。它甚至可能沒有明顯的封閉式表達,導致各種爬山,期望最大化或其他技術。我真的不能說。