Lasso回归(Least Absolute Shrinkage and Selection Operator),中文意思就是最小绝对收缩和选择算子,是一种用来估计和预测的统计技术,它在统计与机器学习的研究中极具有意义。它为真实世界的数据运算带来了极大的便利,同时也具备了很多优良的特征。
一、Lasso回归的特点
1、它可以自动剔除不相关变量。由于Lasso回归中会进行变量系数的缩减,融入变量系数为0的变量,这就使得它可以自动剔除不相关变量,不仅减少了计算量和提高了模型的鲁棒性,还可以让结果更加清晰易懂。
2、维护变量之间的多元共线性。Lasso回归具有系数稀疏的特点,可以抑制多元共线性的影响。
3、L1范数和L2范数可以结合使用。Lasso回归中支持L1范数和L2范数,针对不同的参数,可以更容易地求解参数的估计的解。
4、容易适合于大规模的优化问题。Lasso回归的稀疏优势可以在优化大规模的问题时,更加容易得到收敛的结果。
二、Lasso回归筛选变量的方法
1、类别型变量:必须要再经过先进的分类器来进行建模,最后可以采用熵值等排序方法进行变量筛选。
2、文本变量:在文本变量筛选时,可以采用TF-IDF方法,或者基于概率模型的词表示方法,这样就可以得到一组数值,然后参照Lasso筛选变量的方法进行处理。 3、维数变量:对于这类变量,可以使用相关性系数矩阵来判断它们之间的相关性,如果多个维数变量之间某两个维数变量之间的相关性特别高,就可以把它们中较为低的一个变量作为候选变量;另外,可以考虑使用PCA主成分分析来进行多变量的筛选。
4、连续变量:对于连续变量的筛选,可以考虑采用相关性系数和各变量的统计量来进行筛选,这可以把重复的变量筛除,也可以筛除那些相关性比较低的变量。 5、Lasso变量筛选:既然叫做Lasso,自然而然可以考虑使用Lasso来进行变量筛选,可以考虑将单调性过程加入Lasso模型,从而可以实现L1-penalty,进而可以把同一变量重复添加到模型中,把相应的变量系数变为0或有限的小值。
总结,Lasso回归是一种非常强大的机器学习技术,它可以自动剔除不相关变量,解决多元共线性问题,也可以结合L1范数和L2范数,方便求解参数估计,甚至可以用来优化大规模问题,在变量筛选时,Lasso可以用来筛选类别型变量、文本变量、维数变量和连续变量,通过添加单调性过程可以有效地筛除重复的变量或者相关性较低的变量,是一个令人满意的变量筛选方法。
因篇幅问题不能全部显示,请点此查看更多更全内容