Greybox的市场分析

1月7日,二千零一十九

(本文首次发表于 R——现代预测,请并对 188bet appR博主

其中一个原因我已经开始

灰箱

软件包将用于市场研究和市场分析。我面临的共同问题,当与这些课程合作时,是分析在不同尺度上测量的数据。当R以本机方式处理数字比例时,与范畴的工作是不令人满意的。对,我知道有一些包实现了一些功能,但是我希望它们放在一个地方,而不需要安装大量的包并满足依赖性。毕竟,为克雷默的V安装软件包有什么意义?什么时候可以用两行代码计算?所以,以下是对市场营销分析功能的简要说明

灰箱

.

我会用地铁车厢示例数据集,但我们将把一些变量转化为因素:

mtcars data<-as.data.frame(mtcars)mtcars data$vs<-factor(mtcars data$vs,等级=C(0),1)标签=C(“V“,请“S“)mtcarsdata$am<-因子(mtcarsdata$am,等级=C(0),1)标签=C(“A,请“M”))

本文中讨论的所有功能在

灰箱

从v0.4.0开始。然而,自从提交给克兰后,我发现了几个漏洞,最新版本的错误修复现在是在GitHub上可用.

分类量表中两个变量之间的关系分析

克莱默V

克莱默的v在分类量表中测量两个变量之间的关系。它是在

克莱默()

功能。它返回0到1(1)范围内的值-当两个分类变量之间呈线性关联时,0–否则)卡方统计来自

chisq.测试()

,请各自的p值和自由度数。本例中的被检验假设公式如下:
开始{矩阵}
h_0:v=0 \文本(变量没有关联);}
h_1:v\neq 0\text(变量之间存在关联)。
\{{矩阵}}

下面是我们在查找发动机和变速器之间的关联时得到的地铁车厢数据:

克雷默(Mtcarsdata$vs,mtcarsdata$上午)

克雷默v:0.1042chi^2统计值=0.3475,DF:1,P值:0.5555

从这个输出来看,这两个变量之间的关联非常低(接近于零),并且没有统计学意义。

克莱默v也可以用于数值尺度的数据。一般来说,这可能不是最合适的解决方案,但当数据中有少量值时,这可能很有用。例如,变量齿轮在里面地铁车厢是数字,但它只有三个选择(3,4和5)。克莱默的v告诉我们的是齿轮以下内容:

克莱默(Mtcarsdata$am,mtcarsdata$齿轮)

克雷默v:0.809chi^2统计值=20.9447,测向:2,p值:0

正如我们看到的,在这种情况下,该值很高(0.809),零假设在5%的水平上被拒绝。所以我们可以得出结论,这两个变量之间有一个关系。这并不意味着一个变量导致另一个变量,但它们都可能是由其他东西驱动的(更昂贵的汽车除了自动变速器齿轮更少吗?)

绘制分类变量

R允许相互绘制两个分类变量,这个情节很难读懂,也不是很有帮助(在我看来):

图(表(Mtcarsdata$am,mtcarsdata$齿轮)

表的默认绘图

所以我创建了一个函数,它为两个分类变量生成一个热图。它叫

表格绘图()

以下内容:

图表(mtcarsdata$am,mtcarsdata$齿轮)

两个分类变量的表格图

它是基于

表()

功能和使用表格中的频率来显示颜色:

表(mtcarsdata$am,mtcarsdata$gear)/长度(mtcarsdata$am)

3 4 5安培0.46875 0.12500 0.000000.000000.25000 0.15625

较暗的行业意味着价值集中度较高,而白色的对应于零。所以,在我们的例子中,我们看到大多数汽车都有三个档位的自动变速器。此外,图中显示,这两个变量之间存在某种关系:自动变速器的汽车的档位数较低,而手动档的齿轮数更高(我们在前一小节中已经注意到这一点)。

分类变量和数值变量之间的关联

克莱默v也可用于测量不同尺度的变量之间的关联性。有更好的仪器。例如,一些分析师建议在测量数值变量和分类变量之间的关系时使用类内相关系数。但有一个更简单的选择,其中包括计算变量之间的多重相关系数。这是在

mcor()。

功能

灰箱

.这个变量应为数字,虽然X可以是任何类型。然后,函数将展开所有因子并通过

.lm.fit()。

函数,返回确定系数的平方根。如果变量是线性相关的,然后返回值将接近1。否则它将接近零。函数还返回回归中的F统计,相关的p值和自由度数(假设的公式与

克莱默()

功能)。

它的工作原理如下:

mcor(mtcarsdata$am,mtcarsdata$mpg)

多重相关值:0.5998F-统计=16.8603,DF:1,DF渣油:30,P-值:3E-04

在这个例子中,构造了从模型集合中得到的MPG的简单线性回归。我们可以得出结论,变量之间存在线性关系,这一关系具有统计学意义。

几个变量之间的关联

结社措施

当您处理数据集(即数据帧或矩阵)然后你可以用

风险系数

函数的作用是计算数据中变量之间的相关系数。但是当你混合了数值变量和分类变量时,情况变得更加困难,因为这种相关性对后者没有意义。这促使我创建一个使用

风险系数

,请或

克莱默()

,请或

mcor()。

取决于数据类型的函数(参见

克莱默()

mcor()。

以上)。函数被调用

关联()

()

并返回三个矩阵:关联度量的值,它们的p值和变量之间使用的函数类型。下面是一个例子:

assocvalues<-assoc(mtcarsdata)打印(assocvalues,数字=2)
协会:值:MPG Cyl Disp HP Drat WT QSEC vs AM齿轮碳水化合物MPG 1.00 0.86-0.85-0.85-0.78 0.68-0.87 0.87 0.42 0.42 0.66 0.60 0.66 0.66 0.67 Cy0.86 1.00 0.86 1.00 0.92 0.92 0.84 0.84 0.70 0.70 0.78 0.78 0.59 0.82 0.82 0.52 0.53 0.53 0.62 Dis-0.85 0.85 0.92 0.92 1.00 0 0.92 1.00 0 0 0.79-0.79 0.71 0.71 0.79-0.71 0.89-0.71 0.71 0.89-0.71 0.43 0.43 0.66-0.71 0.72 0.24 0.66 00.68 0.70-0.70-0.71-0.71-0.71-0.45 1.00-0.71 0.09 0.44 0.71 0.71 0.71 0.71 0.83 0.83 0.33 wt-0.87 0.87 0.78 0.89 0.89 0.66-0.71 1.00-0.17 0.55 0.55 0.55 0.69 0.69 0.66 0.61 QSEC 0.42 0.59-0.43-0.71 0.70-0.70-0.71-0.71-0.71-0.71-0.71-0.71-0.71-0.71-0.71-0.71 0.71 0.71 0.71 0.71 0.71 0.71 0.71 0.71 0 0.60 0.52 0.59 0.24 0.71 0.69 0.23 0.10 1.00 0.81 0.44档0.66 0.530.77 0.66 0.66 0.83 0.83 0.66 0.66 0.63 0.63 0.62 0.62 0.81 1.00 0.51碳水化合物0.67 0.67 0.62 0.62 0.62 0.56 0.56 0.79 0.33 0.33 0.61 0.67 0.67 0.69 0.44 0.44 0.51 1.00 P值:MPG气缸显示HP DRAT WT QSEC vs AM齿轮碳水化合物MPG 1.00 0.00 0 0.00 0.00 0.00 0.63 0.63 0.62 0.62 0.62 0.62 0.62 0.81 1.00 0.81 1.00 0.0 0 0 0 0 0 0.81 0 0.81 0 0.81 0 0.81 0.81 0.81 0.81 0 0.01显示0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.01 000 0.00 0.00 0.00 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0 0.00 0 0.00 0.00 0 0.00 0 0.00 0 0 0.00 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.01 0.00 0.00 1.00 0.56 0.00 0.01上午0.00 0.01 0.00 0.18 0.000.00 0.21 0.56 1.00 0.00 0.28档0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.00 1.00 0.09碳水化合物0.01 0.01 0.07 0.00 0.66 0.02 0.01 0.01 0.28 0.09 1.00类型:MPG Cyl Disp HP Drat WT QSEC vs AM MPG”没有““麦克尔”““COR”““COR”““COR”““COR”““COR”“麦克尔”“麦克尔”“CYL”麦克尔”“没有““麦克尔”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“克莱默”“克莱默”迪斯普“COR”“麦克尔”“没有“““COR”““COR”““COR”““COR”“麦克尔”“麦克尔”马力”“COR”“麦克尔”““COR”“没有“““COR”““COR”““COR”“麦克尔”“麦克尔”德拉特“COR”“麦克尔”““COR”““COR”“没有“““COR”““COR”“麦克尔”“麦克尔”重量““COR”“麦克尔”““COR”““COR”““COR”“没有“““COR”“麦克尔”“麦克尔”“QSEC”“COR”“麦克尔”““COR”““COR”““COR”““COR”“没有““麦克尔”“麦克尔”V“麦克尔”“克莱默”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“没有““克莱默”上午麦克尔”“克莱默”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“克莱默”“没有“齿轮”麦克尔”“克莱默”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“克莱默”“克莱默”“碳水化合物”麦克尔”“克莱默”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“麦克尔”“克莱默”“克莱默”齿轮碳水化合物MPG”麦克尔”“麦克尔”“CYL”克莱默”“克莱默”迪斯普麦克尔”“麦克尔”马力”麦克尔”“麦克尔”德拉特麦克尔”“麦克尔”重量“麦克尔”“麦克尔”“QSEC”麦克尔”“麦克尔”V“克莱默”“克莱默”上午克莱默”“克莱默”齿轮”没有““克莱默”“碳水化合物”克莱默”“没有““

需要注意的一点是,函数将数值变量视为分类变量,当它们只有10个唯一值时。这很有用,例如,如果数量齿轮在数据集中。

几个变量之间的关联图

类似于

风险系数

,请散点图矩阵(使用

绘图()

)在变量混合的情况下没有意义:

绘图(mtcarsdata)

默认散点图矩阵

在数值变量的情况下使用散点图是有意义的,,请

表格绘图()

如果是分类和

箱线图()

如果是混合物。所以,有这个功能

扩展()

在里面

灰箱

这就创造了更有意义的东西。它使用的算法与

()

函数,但是产生了图而不是计算关联的度量。所以,,请齿轮将被视为分类函数,函数将生成

箱线图()

表格绘图()

,请当它与其他变量作图时。

下面是一个例子:

排列(mtcarsdata)

扩散矩阵

这个情节表明,例如,化油器的数量会影响燃油消耗(这是我们在

绘图()

)另请注意,齿轮的数量也以非线性关系影响燃油消耗。因此,用虚拟变量构造齿轮数模型可能是一件合理的事情。

函数还具有参数日志,请它将用对数变换所有的数值变量,这很方便,当你怀疑变量之间的非线性关系时。最后,有一个参数直方图,请它将绘制柱状图,或者对角线上的条形图。

排列(mtcarsdata,柱状图=真,对数=真)

对数分布矩阵

情节表明迪斯普与…有很强的非线性关系英里/加仑,请而且,同样地,,请德拉特高压同时影响英里/加仑以非线性方式。

回归诊断

线性回归的一个问题是多重共线性,可以在模型构造之前得到诊断。传统的诊断方法是在建立模型后,通过计算方差膨胀系数(VIF)来实现。然而,VIF不容易解释,因为它位于(1,\英寸英尺\)。解释变量线性回归模型的确定系数更容易解释和使用。如果这个系数等于一,然后在数据集中有一些完全相关的解释变量。如果等于零,那么它们就不是线性相关的。

有一个函数

确定()

威特姆(

在里面

灰箱

返回解释变量的确定系数集。好的是,这可以在构建任何模型之前完成。在我们的例子中,第一列,,请英里/加仑是响应变量,因此我们可以用以下方法诊断多重共线性:

测定(mtcarsdata-1])

Cyl Disp HP Drat wt Qsec vs 0.9349544 0.9537470 0.8982917 0.7036703 0.9340582 0.8671619 0.8017720 AM齿轮碳水化合物0.7924392 0.8133441 0.8735577

从上面的输出可以看出,,请迪斯普与变量的线性关系最大,所以在模型中包含它可能会导致多重共线性,这将降低参数估计的效率。

发表评论对于作者来说,请关注他们博客上的链接和评论: R——现代预测.

188bet appR博客提供 每日电子邮件更新金宝搏网址 R新闻和 教程关于以下主题: 数据科学,请,请 大数据,,请 r作业,请可视化(可视化) ggplot2型,请,请 箱形图,请,请 地图,请,请 动画)程序设计( RSTUDIO公司,请,请 斯维夫,请,请 乳胶,请,请 SQL,请,请 日食,请,请 吉特,请,请 哈多普,请,请 刮网)统计 回归,请,请 主成分分析,请,请 时间序列,请,请 交易还有更多…



如果你走这么远,为什么不 订阅更新 从网站上?选择您的口味: 电子邮件,请,请 推特,请,请 1188bet app,请或 脸谱网……

注释已关闭。

搜索R-Blo188bet appggers


赞助商

千万不要错过更新!你说什么?
订阅R-Bloggers188bet app接收
最新R帖子的电子邮件。
(您将不再看到此消息。)

单击此处关闭(此弹出窗口将不再出现)