Python机器学习LightGBM：梯度提升框架的高效模型训练与预测应用！

记得刚入行那会儿总觉得XGBoost已经是梯度提升的天花板了。直到某次项目deadline快到数据量又特别大 XGBoost跑了一晚上还在那儿慢慢悠悠地训练。

老大过来看了一眼。

"试试LightGBM吧。"

当时心想能快到哪儿去呢结果一跑好家伙速度快了好几倍不说效果还更好。那一刻真的是被震撼到了。

01

LightGBM这个框架啊微软出品的梯度提升机器学习框架。核心思想很简单就是在传统GBDT基础上做了很多优化。

最关键的改进是叶子生长策略。

传统的XGBoost是按层生长每一层所有叶子节点同时分裂。LightGBM呢它按叶子生长每次选择损失减少最大的叶子进行分裂。这样做的好处显而易见同样的叶子数量下 LightGBM能获得更低的损失。

还有个很牛的优化叫做直方图算法。

这段代码很基础但是从这里开始你就能感受到LightGBM的简洁了。

真正使用LightGBM的时候我发现它有两种API方式。原生API和Scikit-learn API。

原生API更灵活一些。

这个early_stopping特别有用能防止过拟合。

但是说实话大部分时候我还是喜欢用Scikit-learn API 因为更符合平时的习惯。

简单粗暴效果还好。

参数调优这块儿我踩过不少坑。

num_leaves这个参数特别关键它控制每棵树的复杂度。一般建议设置为2^max_depth - 1 但实际项目中我发现这个公式不一定适用。数据量大的时候可以适当增加数据量小就要控制住不然容易过拟合。

还有learning_rate 学习率。

开始的时候总想着设置大一点训练快嘛。后来发现小的学习率配合更多的迭代次数效果往往更稳定。我现在一般从0.01开始试然后根据验证集表现调整。

feature_fraction和bagging_fraction这两个参数呢是控制特征和样本采样的。适当的采样能提高模型泛化能力还能加快训练速度。

最坑的一次是数据集类别不平衡模型效果怎么都上不去。

后来发现LightGBM有个class_weight参数专门处理这种情况。

效果立马上去了。

特征重要性这个功能我特别喜欢。

这个功能在特征工程阶段特别有用能快速识别出哪些特征对模型贡献大。

有时候会发现一些意想不到的特征重要性很高这往往能给我们新的业务洞察。

还有个小技巧 LightGBM支持类别特征的直接处理不需要手动编码。

省了不少预处理的工作。

性能优化方面 LightGBM确实做得很好。

内存使用比XGBoost少很多训练速度也快。特别是在大数据集上这个优势更明显。我之前做过一个项目 100万条数据 XGBoost要跑2小时 LightGBM半小时就搞定了。

但是小数据集上要小心过拟合。

LightGBM的表达能力很强容易在小数据上学得过头。这种情况下我一般会增加正则化或者减少模型复杂度。

还有一点 LightGBM对特征工程的要求相对没那么高。它能自动处理很多细节但这不意味着我们可以偷懒。好的特征工程仍然是提升模型效果的关键。

总的来说 LightGBM是个很棒的工具速度快效果好使用简单。现在它已经成为我机器学习工具箱里的常用工具了。如果你还没试过强烈建议上手体验一下。

相信我用过之后你会爱上它的。

以上就是“Python机器学习LightGBM：梯度提升框架的高效模型训练与预测应用！”的详细内容，想要了解更多Python 教程欢迎持续关注编程学习网。

扫码二维码 获取免费视频学习资料

Python编程学习

查看2022高级编程视频教程免费获取