爲什麼L1正則化在機器學習中起作用

那麼，在機器學習中，防止過擬合的一種方法是添加L2正則化，有人說L1正則化更好，爲什麼？另外我知道L1用於確保數據的稀疏性，對此結果的理論支持是什麼？爲什麼L1正則化在機器學習中起作用

來源

2015-04-22 Mingyao Chen

如果這個問題本質上是理論性的而且主觀性很強，那麼堆棧溢出的可能性很大。有人可能確實對這個問題有很好的反饋意見，但如果沒有特別的和相對「正確」的答案，那麼這個問題應該是廣泛的。 – CalebB

歡迎來到StackOverflow！這個問題與編程沒有直接關係，而是純粹的機器學習。請考慮將其移至StackExchange的交叉驗證或理論計算機科學。 –

L1正則化用於稀疏性。這可能是有益的，特別是在處理大數據時，由於L1可以產生比L2正則化更多的壓縮模型。這基本上是由於隨着正則化參數的增加，您的最優值爲0的機會更大。

由於平方的原因，L2正則化懲罰更多的數字。當然，L2在平滑方面更「優雅」。

您應該檢查this webpage

附：

更數學全面的解釋可能不是很適合這個網站上，你可以嘗試其他的堆棧交易所網站例如

來源

2015-04-22 14:19:42

非常感謝！它幫助了很多 –

衆所周知的是L1正規化有助於稀疏特徵空間進行特徵選擇，那在某些情況下使用L1是一個很好的實際原因。然而，除了那個特殊的原因，我從來沒有見過L1在實踐中表現得比L2好。如果你在這個問題上看一看LIBLINEAR FAQ，你會看到他們沒有看到一個實例，說明L1擊敗L2並鼓勵圖書館的用戶在找到它時與他們聯繫。即使在您可能從L1的稀疏中獲益以進行特徵選擇的情況下，對其餘變量使用L2也可能比L1本身獲得更好的結果。

所以，安德魯伍這裏解釋

L1 regularized logistic regression can be effective even if there are exponentially many irrelevant features as there are training examples.

當特徵的數量是相當大的，你可以給一個L1一槍，但L2應該永遠是你視而不見選擇。

即使在給定功能數量的情況下有很強的使用L1的理由的情況下，我也會推薦使用Elastic Nets。如果你正在做線性/邏輯迴歸，同意這隻會是一個實際的選擇。但是，在這種情況下，Elastic Nets被證明是（在理論上和實踐中）比L1/Lasso更好。彈性網絡將L1和L2正則化結合在引入另一個超參數進行調節的「唯一」成本中（有關stanford.edu的更多詳細信息，請參閱Hastie的論文）。

因此，簡而言之，L1正則化最適合於稀疏特徵空間中的特徵選擇。

來源

2016-07-28 01:57:19 ishandutta2007

爲什麼L1正則化在機器學習中起作用

回答

相關問題