意见
评定 意见

教育研究:反思‘Gold Standard’

通过 马克·塔克 — 2014年8月13日 6分钟阅读

我最后的博客,我指出,美国研究人员着眼于哪些政策和实践有效,而不是针对教育系统的设计有效,实际上是在为那些政策和实践的次最优化做出贡献。如果嵌入了这些策略和实践的系统无法正常运行,那么优化特定策略和实践以在该系统中使用的研究将确定那些不太可能是运行良好的系统中最佳策略和实践的策略和实践。 。

我认为,总的来说,这是正确的。但是,对于最受人尊敬的研究方法,教育研究的“金标准”,随机对照试验(RCT)尤其如此。该方法包括从感兴趣的人群中随机选择足够的人以获得统计上合理的结果,并分配他们接受特定的治疗,然后从相同人群中识别出相同大小的随机样本,将其不接受治疗并进行比较结果。这种研究方法被称为“黄金标准”,因为它被认为能够使研究人员提出非常有力的论据,即如果得到治疗或方案的小组的表现与得到治疗或方案的小组截然不同,则治疗导致了观察到的结果。不。

将RCT提升到金标准地位是一项重要成就。它的开发和推广是为了对付许多教育研究的长期批评(常常是当之无愧的),这些批评根本不是研究,而是把意识形态的姿势打扮成研究。它的支持者希望提高一种方法的地位,这种方法对因果关系的主张毫不怀疑。那是一个值得的目标。

但是,在上一个博客中,我认为提高美国教育系统性能的最重要的单个障碍是系统本身的整体设计,而不是整体设计中的特定元素的设计。为了举例说明,我将以一个大大简化的示例来说明,该系统旨在最有效地利用在学校工作的无数廉价廉价,教育程度低的教师的供应,这是1910年代工业化美国的主要组织形式,在1920年代,最顶尖的国家/地区正在使用该系统,该系统旨在从其大学生的高层招聘他们的老师,对其进行良好的教育和培训,并为他们提供具有专业职业的现代化专业工作场所,专业的薪酬和晋升系统以及专业的管理。

您会注意到,我只是对事实进行了断言,其中包括因果关系的归因。实际上,我说过,具有高效教育体系的国家所采取的政策收集可以用方式X来描述,此外,这些政策不仅被视为独立政策的收集,而且被视为一个连贯的政策体系。 ,导致那些系统的优越性能。好的,您可能会说:证明!

因此,我急于用我可以召集的最有说服力的证据来证明这一点,即RCT。但是我有一个问题。我不能将国民随机分配给国民教育系统。可以说,将成千上万的英格兰儿童随机分成两组,然后派一组人去体验捷克共和国的教育体系,而另一组人在英格兰苦苦挣扎,这一想法很可笑。无法完成。

但是,如果我可以解决这个问题,那么我会遇到另一个问题。实验将需要数年。在那段时间里,如果PISA在捷克共和国取得了优异的成绩,那么英语教师本来会越过英吉利海峡,将捷克的创新带回实用,这是英国当局和研究人员无法阻止的过程。

下一个问题是致命的。我的结果不会吸引任何观众。负责国家教育系统的人不是复制者。每个国家都有其自己的价值观,历史,政治,专业见解,只是plain包bag。因此,他们对复制没有兴趣。他们是有创造力的适应者,以反映学生自身需求,价值观,目标和环境的方式为教育挑战提供解决方案。即使RCT可以证明一个国家的整体教育模式“导致”了其优异的成绩,也不能肯定地表明该模式的哪些特征是负责任的,即使可以,也没有任何国家会采用这种形式。无论如何都经过测试。

那么,如果目标是要尽可能多地了解有效的国家和国家的特征,那么RCT的替代方案是什么? 系统 教育之中?我们的答案是行业基准测试。详细描述 在我几年前写的一篇文章中,工业基准测试的起源可追溯到1980年代初,当时日本的制造公司在质量,价格和上市时间方面都击败了美国同行,使许多公司破产。最好的美国公司通过努力了解日本人如何击败他们而幸存下来。美国公司对复制任何人都不感兴趣。派遣他们的工程师使用各种方法来收集和分析相关数据,以访问日本顶级公司的完整样本。他们参观了工厂;与工头,高层管理人员,分析师,政策制定者,银行家,独立行业专家等进行了交谈。他们阅读报告,查看数据,并非常详细地记录他们的谈话以及他们在竞争对手工厂中看到的内容。而且,他们带着自己所学的笔记本和计算机,回到美国,将商业计划,新产品设计,重新制定的生产方法和新的培训系统整合在一起,使许多美国公司在竞争中胜于竞争,而不是抄袭他们的竞争对手,但要向他们学习。

这是我的组织和其他组织多年来所做的事情。相互学习是多年来表现最好的国家所做的。的 评论家谴责这种方法显然是不科学的,同时在比较文献中使用RCT的虚假示例来表明RCT实际上可以用于比较目的。它们是虚假的,因为这些示例实际上并不是使用RCT来比较整个教育系统的示例。

所以我结束了我的起点。一种 Dylan Wiliam的非常好的论文伦敦大学教育研究所名誉教育评估名誉教授指出,RCT方法存在许多需要注意的问题。但是,对我而言,中心问题是,在迫切需要更好的理论和研究方法的领域,这种方法的“黄金标准”最彻底地失败了。我描述为工业基准测试的各种方法并不能共同拥有RCT的技术优雅,并且与目前流行的方法相比,它们需要更多的判断力和更少的复杂性。但是,它们使美国制造商能够学习到如何应对日本的猛攻和继续经营,而且它们足以推动世界教育领导者升至目前在全球排行榜首位的位置。 RCT应该可以,但没有。行业基准测试不应该起作用,但应该起作用。您难道不认为美国应该认真地将其添加到我们的研究库中吗?

关注NCEE @CtrEdEcon。

最佳表现者中表达的观点严格是作者的观点,并不反映《教育编辑项目》或其任何出版物的观点或认可。