GBDT – Tenosr's notebook

GBDT核心源码解析

【文章发布的比较早，新版sklearn已经使用Rust重写了，只能用来凑热闹了】 sklearn中对GBDT的实现是完全遵从论文 Greedy Function Approximation的，我们一起来看一下是怎么实现的。GBDT源码最核心的部分应该是对Loss Function的处理，因为除去Loss部分的代码其他的都是非常直觉且标准的程序逻辑，反正我们就从sklearn对loss的实现开始看吧～～ Loss Function 的实现以二分类任务为例，loss采用Binomial Deviance，看这个loss很陌生，其实跟我们熟悉的negative log-likelihood / cross entropy 是一回事，因为是二分类问题嘛，模型最终输出其实就是$P(y=1|x)$，即样本$x$是正例的概率，我们把这个概率标记成$p(x)$，那么Binomial Deviance等于 $$\ell(y, F(x)) = -\left [ y\log(p(x)) + (1 – y)\log(1-p(x)) \right […]

XGBoost自定义目标函数

Coding, Machine Learning

xgboost内置了足够丰富的目标函数(objective function)，正常来说是能够应付日常需求的，如果～万一～你有特殊需求，它也可以自定义目标函数，或者叫损失函数(loss function)，这里介绍下怎么自定义目标函数。

XGBoost如何控制过拟合

Machine Learning, Papers

加法类模型的拟合能力比较强，所以控制overfitting在GBDT中尤为重要，XGBoost的主要工作有如下几点：
1. 为每一轮的目标函数增加regularization从而约束本轮学到的子函数不至于太强。由于引入regularization导致原来的目标函数变复杂，使用了二阶导数来近似求解。
2. 收缩系数，进一步约束每个子函数的贡献。
3. 列采样，借鉴自随机森林。