0

那麼,在機器學習中,防止過擬合的一種方法是添加L2正則化,有人說L1正則化更好,爲什麼?另外我知道L1用於確保數據的稀疏性,對此結果的理論支持是什麼?爲什麼L1正則化在機器學習中起作用

+1

如果這個問題本質上是理論性的而且主觀性很強,那麼堆棧溢出的可能性很大。有人可能確實對這個問題有很好的反饋意見,但如果沒有特別的和相對「正確」的答案,那麼這個問題應該是廣泛的。 – CalebB

+0

歡迎來到StackOverflow!這個問題與編程沒有直接關係,而是純粹的機器學習。請考慮將其移至StackExchange的交叉驗證或理論計算機科學。 –

回答

4

L1正則化用於稀疏性。這可能是有益的,特別是在處理大數據時,由於L1可以產生比L2正則化更多的壓縮模型。這基本上是由於隨着正則化參數的增加,您的最優值爲0的機會更大。

由於平方的原因,L2正則化懲罰更多的數字。當然,L2在平滑方面更「優雅」。

您應該檢查this webpage

附:

更數學全面的解釋可能不是很適合這個網站上,你可以嘗試其他的堆棧交易所網站例如

+1

非常感謝!它幫助了很多 –

0

衆所周知的是L1正規化有助於稀疏特徵空間進行特徵選擇,那在某些情況下使用L1是一個很好的實際原因。然而,除了那個特殊的原因,我從來沒有見過L1在實踐中表現得比L2好。如果你在這個問題上看一看LIBLINEAR FAQ,你會看到他們沒有看到一個實例,說明L1擊敗L2並鼓勵圖書館的用戶在找到它時與他們聯繫。即使在您可能從L1的稀疏中獲益以進行特徵選擇的情況下,對其餘變量使用L2也可能比L1本身獲得更好的結果。

所以,安德魯伍這裏解釋

L1 regularized logistic regression can be effective even if there are exponentially many irrelevant features as there are training examples.

當特徵的數量是相當大的,你可以給一個L1一槍,但L2應該永遠是你視而不見選擇。

即使在給定功能數量的情況下有很強的使用L1的理由的情況下,我也會推薦使用Elastic Nets。如果你正在做線性/邏輯迴歸,同意這隻會是一個實際的選擇。但是,在這種情況下,Elastic Nets被證明是(在理論上和實踐中)比L1/Lasso更好。彈性網絡將L1和L2正則化結合在引入另一個超參數進行調節的「唯一」成本中(有關stanford.edu的更多詳細信息,請參閱Hastie的論文)。

因此,簡而言之,L1正則化最適合於稀疏特徵空間中的特徵選擇。