为什么要使用证据的分量?

5月4日,二千零一十九
By

(本文首次发表于 S+/R——统计计算领域的另一个博客,并对 188bet appR博主

有人问我为什么要花这么多精力开发SAS宏和R函数来为Woe转换做单调的binning,考虑到其他尖端数据挖掘算法的可用性,这些算法将自动生成预测,并在模型中输入任何预测值。尽管如此,一个好的建模者与其他人真正区别的是如何在将数据输入模型之前处理具有挑战性的数据问题,包括缺失值,outliers,线性度,以及可预测性,以一种可扩展的方式,可以在生产环境中推广到数百甚至数千个潜在的模型驱动程序。

The WoE transformation through monotonic binning provides a convenient way to address each of aforementioned concerns.

1.因为Woe是基于数据离散化的分段转换,所有丢失的值都将单独属于一个独立的类别,或者与具有类似事件概率的邻居组合。因此,无需对缺失值进行特殊处理。

2。在对每个变量进行单调分块之后,由于每个BIN的WOE值是从预测器到响应的投影,响应由事件和非事件分布之间的对数比率定义,预测值的任何原始值都不再重要,因此与异常值相关的问题将消失。

3.虽然许多建模者希望使用对数或幂变换来实现预测值和响应对数概率之间的良好线性关系,which is heuristic at best with no guarantee for the good outcome,the WoE transformation is strictly linear with respect to log odds of the response with the unity correlation.值得一提的是,一个数值变量及其严格的单调函数应该收敛到相同的单调Woe变换。

4。最后,因为wo被定义为事件和非事件分布之间的对数比率,这表明Y=0的病例与Y=1的病例之间存在分离。作为Woe值的加权和,权重为事件和非事件分布的差异,信息值是衡量预测因子重要性的重要统计指标。

Below is a simple example showing how to use WoE transformations in the estimation of a logistic regression.

top6

留下评论for the author,please follow the link and comment on their blog: S+/R——统计计算领域的另一个博客.

188bet appR博客提供 daily e-mail updates金宝搏网址 R新闻与 教程关于以下主题: 数据科学大数据, r作业,可视化(可视化) ggplot2箱形图maps动画)程序设计(程序) 演播室SweaveLaTeXSQLEclipsegit哈多普刮网)统计 回归主成分分析时间序列交易还有更多…



如果你走这么远,why not subscribe for updates 从站点?选择您的口味: 电子邮件推特1188bet app,or facebook

Comments are closed.

搜索R-Blo188bet appggers

Sponsors

千万不要错过更新!
订阅R-Bloggers188bet app接收
最新R帖子的电子邮件。
(You will not see this message again.)

单击此处关闭(此弹出窗口将不再出现)