第2部分:关于OFS级通货膨胀报告的进一步评论

1月7日,二千零一十九
通过

(本文首次发表于 R–让我们看看数字,并对 188bet appR博主


更新,2019-01-07:我很高兴地说,我在下面第1节中抱怨的在线媒体文章现在已经被作者修改了。金宝搏网址纠正错误的归因。我感谢克里斯帕尔帮助解决这个问题。


几天前我的帖子(我现在打电话给你)第1部分”)我研究了英国政府报告中使用的统计方法的各个方面。学生办公室,金宝搏网址关于“等级膨胀”在英国大学。第二篇文章继续讨论同一主题。

在这第2部分我要做两件事:

  1. 把记录调直,关于一些错误的报告第1部分在专业媒体上。
  2. 建议一种新的统计方法(在我看来)比OFS报告中使用的方法更好。

更实质的东西将是那里的第二颗子弹(当然我希望我根本不需要做第一颗子弹)。在这篇文章中(在下面的第2节),我将概述更好的方法,用我所给的那个人为的例子第1部分希望这足以给出总体思路,给专业读者和非专业读者。以后我会跟进(按我的计划第3部分)对建议的更好方法进行更详细的描述;那个第3部分文章将主要适用于具有更多统计专业背景的读者。

1.记录在案

我知道我所做的分析有两个地方第1部分已报告:

第一个链接是一个付费网站,我想。第二个似乎在公共领域。我不建议遵循这些链接中的任何一个,尽管如此!如果有人读了这篇文章想知道我写了什么金宝搏网址第1部分,那么我的建议就是阅读第1部分直接。

在这里我想提到三种具体的方法那篇文章歪曲了我写的东西第1部分第2点和第3点是更重要的,我认为(但是1也有点麻烦,对我来说:

  1. 这篇文章把我的博客文章称为“他委托的评论“事实上,一位名叫克里斯帕尔的记者在圣诞节前给我发了一封电子邮件。在电子邮件中,克里斯自我介绍为”我是研究部的记者,他在电子邮件中提出的请求(与最新发布的OFS报告有关)是你或你认识的人有兴趣看看吗?“我听说过研究两周。我确实有兴趣看看OFS报告中使用的方法。但直到我注意到上述文章,我从来没有听说过一个叫他。可能我弄错了,但在我看来这句话他委托的评论表示在还有我,有特定的可交付成果,甚至可能是工程的付款。事实上没有这样的”佣金”为了我所做的工作。我只是在圣诞假期花了一些时间思考OFS报告中使用的方法,金宝搏网址然后我写了一篇博文(告诉克里斯·帕尔我做过这个)。让我重复一遍:我从来没有听说过(也不是文章的明显作者,这不是克里斯帕尔)。没有支付或要求。我在这里提到所有这一切只是为了防止任何人读过那篇文章从中得到错误的印象。
  2. 这篇文章包含以下错误陈述:“数据太复杂,无法使用可靠的统计方法,他说:““他“这里指的是我,大卫·费斯。我没有说过这样的话,无论是在我的博客帖子中,还是在与Chris Parr的任何电子邮件通信中。的确,这不是我曾经做过的事说:这个短语”数据……对于可靠的统计方法来说太复杂了”是胡说八道。
  3. 这篇文章包含以下错误陈述:“他将OFS分析称为辛普森悖论的一个例子。”“再一次,“的”他“在那句话中,我指的是我。但我没有把OFS分析称为辛普森悖论的一个例子,不管是在我的博客上还是其他任何地方。(我也不可能有,因为我无法访问OFS数据集。)我在我的博客文章中实际上写的是我自己的人工的,特殊构造示例是辛普森悖论的一个例子——它甚至不接近于同一件事!!

上面提到的文章似乎有一个议程,这与我对OFS报告的评论提供一个忠实和信息丰富的叙述有很大的不同。我想这是新闻许可证(尽管我很天真地希望自己的大学能订阅一个专业出版物会更好)。错误的归因关于误导性陈述,我不能接受,尽管如此,这就是为什么我在这里专门写的。金宝搏网址

完全清楚:

  • 上面提到的文章是误导性的。我不向任何人推荐它。
  • 我在这个博客里的所有文章都是我自己写的,不受任何人委托。特别地,以下我将继续写的内容(以及第3部分在这个扩展的博客文章中,当我说到这一点时,金宝搏网址关于OFS报告,是任何记者要求的。

2.朝向更好(统计)的测量模型

我不得不承认第1部分我一度失去了动力,具体地说,在回答我自己关于什么方法比OFS报告中使用的方法更好的问题时,我写道”金宝搏网址“我没有答案“.我本可以也本应该做得更好。

下面我将概述一个非常简单的方法,它克服了我在第1部分,即。,太高的聚合水平下的测量结果可能会给出误导性的答案。我将通过相同的方法演示我建议的新方法,我用的人为的例子第1部分这应该足以传达基本理念,希望。[实际数据分析的全面概括性将要求对分层统计模型进行更详细和更技术的处理;我稍后再做,当我来写作的时候第3部分]

反思,我认为OFS报告发表以来所看到的许多批评都与这个词的使用有关。”解释“在报告中。事实上,这也是我自己的一个因素(如上所述)“我没有答案“评论。我觉得很明显,不管怎样-任何认真的尝试解释一等学位授予的明显增加需要考虑的不仅仅是学生进入大学时的属性。根据OFS报告中使用的数据,我认为人们能希望做的最好的事情是测量这些明显的增加(或减少)以这样的方式,测量是一个”“公平”一个适当地考虑到新生属性及其随时间的变化的人。如果我们采取这种态度,即,那个目的是只有好好衡量事情,不是为了解释它们-那么我认为有可能设计出更好的统计分析,为此目的,而不是OFS报告中使用的那个。

(我完全认识到在OFS工作中采取的态度!不幸的是,OFS报告使用了解释“,我认为它主要是作为一个技术词汇,其含义由统计回归模型定义,不可避免地导致报告的读者更广泛地思考实质性问题。金宝搏网址解释度级分布的任何明显变化。)

2.1“那些”玩具“又是数据,一个更好的统计模型

回顾第1部分中简单示例的设置:两个学年,两种类型的大学,两种类型的学生。数据如下:

2010-11 A大学B第一其他第一其他H 1000 0 H 500 I 0 1000 I 500 2016-17 A大学B第一其他第一其他H 1800 200 H 0 0 I 0 I 500 1500

我们对变化的衡量应该反映出这样一个事实:,每所大学的每一类学生,如果有信息,,第一次获奖的比例实际上下降了(在本例中)。

获得第一名的百分比变化:大学A,学生类型H:100%->90%大学A,一类学生:没有数据大学B,学生类型H:无数据大学B,I类学生:50%->25%

这为制定合适的(统计)测量模型提供了关键:

  • 在可能的最低聚合级别上测量变化;;
  • 然后,如果需要综合结论,以某种合理的方式组合单独的测量。

在我们的简单示例中,“可能的最低聚合级别”这意味着我们应该分别测量每所大学内每一类学生的变化。真实的OFS数据,有一个较低级别的聚合更合适,由于不同学位课程在大学里也应该被区分开来——他们的学生入学率不同,不同的教学方式,不同的考试板,等)

在统计学中,这种分析通常被称为分层的分析。利息数量(此处为授予优先权百分比的变化)按几个预先指定的单独计量。地层,然后,如果需要的话,这些测量值被结合起来(通过一个正式的统计模型,或者不太正式地通过简单或加权平均)。

在上面的简单示例中,共有4个层次(相当于2所大学中每一所大学的2类学生)。在我们的特定数据集中,只有2个层次的变化信息,金宝搏网址我们可以总结如下信息:

  • 在A大学,学生类型第一名的比例下降了10%;;
  • 在B大学,学生类型H第一名的比例下降了50%。

这就是数据中的所有信息,金宝搏网址关于第一次获奖率的变化。)

如果合并,“全行业“需要衡量变化,然后分开,地层具体措施需要以某种方式组合。在某种程度上这是任意的,组合方法的选择应该取决于目的在整个行业范围内,尤其是在需要解释为了它。我可能会有时间在稍后的金宝搏网址第3部分.

现在,让我回忆一下全行业“分析得出的测量结果(如第1部分)使用OFS报告方法的上述数据集。该方法获得的结果是一个全行业的增加以7.5%的比率授予第一名——这明显误导了大量数据。减少在这两所大学。虽然我不太喜欢OFS的报告”与2010年相比”方法,它确实有透明度的好处,在我的玩具“示例:很容易应用于分层分析:

根据2010-11年A大学2000年1800年B大学1000 500年的实际情况,2016-17年的预期第一名——总计3000 2300人

-从中我们可以报告整个行业在第一批获奖中下降了700/3000=23.3%,一旦正确考虑了学生的属性。(这可以看作是A大学和B大学分别减少10%和50%的适当加权平均值。)

和以前一样,我有充分利用R可用代码(作为我之前的更新R降价文件)。对于不使用的人R,我在此附上一份pdf副本:等级通货膨胀示例.pdf

2.2将更好的模式概括为:更多的地层,更多时间点

上面在一个小的背景下提出了一个更好的测量模型的基本思想。玩具“例子,但实际数据当然要大得多,也更复杂。

概括模型的关键是要认识到它可以用逻辑回归模型的形式表达(这是相同的友善的OFS报告中使用的模型;但是“更好逻辑回归模型结构不同,在这一点上,它需要包括一个定义测量发生的地层的术语)。

这将在年进一步发展。第3部分,比这篇博文的第1部分和第2部分更具技术性。作为一个品尝者,让我在这里展示“的逻辑回归表示的数学形式。”玩具“以上数据分析。带符号

  • U提供机构(大学);;U或者是A在玩具的例子中
  • T学生类型;;T或者是H在玩具的例子中
  • Y多年来;;Y在玩具例子中是2010-11还是2016-17
  • \pI{{UT} 一年中第一次的可能性Y,对于类型的学生T在大学里U

与上述分析相对应的逻辑回归模型是

\ Log\ Left(\Pi Uty \ over 1-\Pi Uty \ Right)=\Alpha Ut+\Beta UY .

这很容易概括为涉及更多阶层(更多大学)的情况U和学生类型T,以及学位课程在内部大学)。只有4个层次参数阿尔法啊,AlpHa{{Ai},AlpHa{{BH},阿尔法{毕} 在上面的例子中,但更多的地层很容易适应。

该模型也易于推广,以同样的方式,2年以上的数据。

为了比较,所用的相应的逻辑回归模型在OFS报告中如下所示:

\ Log\ Left(\Pi Uty \ over 1-\Pi Uty \ Right)=\Alpha T+\Beta UY .

所以表面上非常相似。阿尔法{UT} 决定了必要的地层在内部OFS模式缺少大学。

我的目标是在新的第3部分在接下来的几天内发布,如果时间允许的话。现在我想我在这里建议的模型需要一个名称(即,一个能更清楚地识别它的名字。”我的更好的模型”!)命名不是我的强项,不幸的是!但是,至少现在,我将把上面介绍的分析称为按可用的学生属性分层”-或“SASA模型”简而言之。

(这里的关键词是“分层的。)


David Firth2019年1月

引用此条目:
FirthD(2019)。第2部分:关于OFS级通货膨胀报告的进一步评论。网络日志输入统一资源定位地址https://statgeek.net/2019/01/07/part-2-further-comments-on-ofs-grade-inflation-report/

发表评论作者,请关注他们博客上的链接和评论: R–让我们看看数字.

188bet appR博客提供 每日电子邮件更新金宝搏网址 R新闻和 教程关于以下主题: 数据科学,, 大数据,, r作业,可视化(可视化) GGPROTT2,, 箱形图,, 地图,, 动画)程序设计(程序) 演播室,, 斯威夫特,, 乳胶,, SQL,, 日食,, 吉特,, 哈多普,, 刮网)统计 回归,, 主成分分析,, 时间序列,, 交易还有更多…



如果你走这么远,为什么不 订阅更新 从站点?选择您的口味: 电子邮件,, 推特,, 1188bet app,或 脸谱网

注释已关闭。

搜索R-Blo188bet appggers


赞助商

千万不要错过更新!!
订阅R-Bloggers188bet app接收
最新R帖子的电子邮件。
(您将不再看到此消息。)

单击此处关闭(此弹出窗口将不再出现)