主要过通过设定bias来解决样本严重不均衡的问题,包括理论推导和实践过程。之前看过一个例子,还挺有趣的,这里给乡亲们介绍下。
XGBoost如何控制过拟合
加法类模型的拟合能力比较强,所以控制overfitting在GBDT中尤为重要,XGBoost的主要工作有如下几点:
1. 为每一轮的目标函数增加regularization从而约束本轮学到的子函数不至于太强。由于引入regularization导致原来的目标函数变复杂,使用了二阶导数来近似求解。
2. 收缩系数,进一步约束每个子函数的贡献。
3. 列采样,借鉴自随机森林。
Policy Gradient
Q Learning 先学到一个value function,之后基于value function可以得到最优的policy。那Policy Gradient名字已经很直白了,直接对Policy进行建模,就很直接。 我们来看下原始论文是怎么推导的。