你将收获

理解Bagging概念。 理解随机森林模型的思想;

理解Boosting的基本思想; 理解AdaBoost的学习过程;

理解XGBoost对目标函数进行二阶近似的原理; 理解XGBoost快速的原理

理解LightGBM更快速的原理; 运用XGBoost /LightGBM解决实际问题;

适用人群

有一定数学和计算机编程基础,希望掌握集成学习相关知识的学员。

课程介绍

本章介绍集成机器学习相关知识,并通过实例介绍随机森林,XGBoost、LightGBM等模型使用。

课程目录

学员评价

5.0
  • 0%
  • 0%
  • 0%
  • 0%
  • 0%

正在加载中...

同学笔记

  • sinat_41475087 2020-02-13 15:31:19

    来源:Bagging和随机森林2 查看详情

    训练集上方差大的原因,通常是模型太复杂,泛化能力弱。如决策树,为了提高泛化能力,引入随机森林。

     

    Bagging

     

    易证明覆盖率在N趋于极限情况为:

    1-e^-1 ≈ 0.632

    bootstrap样本:N个样本数据,进行N次有放回采样N个数据。

     

    重复M次取均值集aggregating

    合起来简称bagging 成功将方差变为接近∂^2/M

     

    sklearn支持对任意学习器的Bagging

    n_estimators :M

    max_features:用特征的数量,只用部分,每个模型间相关性更低

    bootstrap:bool随机采样时是否放回。

    bootstrap_features:随机采样特征是否放回。

    oob_score:out of bag score,是否用没有采样到的数据,作验证。

     

    学习器建议数量:

    分类:√D

    回归:D/3     D为dimensions

     

     

    Random Forest

    由于每次bagging极限情况下的采样数据覆盖为63.2%,多次bagging会有重复,相关性很高,方差不完全满足∂^2/M。

    所以有随机森林。

    随机选择一部分特征,随机选择一部分样本。多棵树,参数不好解释。

  • goodluckyangH 2020-02-11 20:51:59

    来源:XGBoost的Scikit-Learn接口 查看详情

    XGBoost 

    分类 XGBClassifier

    回归 XGBRegressor

    排序 XGBRanker

     

    learning task parameters 与学习任务有关,如分类回归合排序

    objective eval metric seed basescore

     

    General parameters 一般参数

    基学习器类型、基学习器可选回归树或线性模型

    booster silent静默 nthread disable_default eval metric

    booster取值gbtree gblinear dart

     

    objective 损失函数

     

    eval——metric评价指标

     

    gblinear L2正则权重 L1正则权重  

    gbtree

     

    tree Booster 的参数

     

    learn_rate 学习率或收缩因子,学习率和迭代次数/弱分器数目

    n estimator 弱分类器数目

    tree method树的建立算法

    grow policy结点增长策略

    max depth树的最大深度

    max leaves最大叶子数目

    max bin直方图最大bin数

    sketch eps

    min child weight 叶子样本最小权重和

    gamma 损失函数下降值的最小值

    subsample 采样率

    colsample bytree 每棵树所用的特征比例

    byleve每隔层分裂所用的特征比例

    reg alpha l1正则惩罚系数 lambda l2正则惩罚系数

     

     

     

  • goodluckyangH 2020-02-11 16:57:56

    来源:XGBoost工具包使用指南 查看详情

    XGBoost

    import xgboost as xgb

     

    SL

    from xgboost import xgbclassifier

     

    Dmatrix train /cv  moxing

    数据接口

    libsvm txt

    矩阵 

    xgboost、

     

    train

    params 

    drain 训练数据

    num_boost_round机器学习器数目

    evals 校验集

     

    obj目标函数 

    feval评价函数

    maximize最大化还是最小化

    early stopping rounds,返回最佳迭代次数

    evals result 校验集上的性能

    verbose eval 是否打印日志

    learning rate学习率

    xgb model 是否支持onestart

     

    xgboost。cv

    num boost round 迭代次数

    nfold k折交叉验证

    stratified分层采样

    metrics 评价指标

    show stdv 

没有更多了