本文是在Fast Grant和Arc Institute的资助之后赞助的一次独立智库创作;是基于广泛的科学家访谈和大量案头研究的“非学术”论文。
文章描述了美国这一代科学慈善家共有的、希望通过具有强烈企业家精神的慈善活动,改善科学研究系统的终极野心。文章被各方大量引用;文章很多观点,有过资助系统设计经验的人,必然有深切共鸣;这是绝不应该忽视的思想潮流。
作者Michael Nielson和Qiu Kanjun,发表于2022年10月18日,全文30000字,这里是下半部分,上半部分见:
这篇主体部分是开放科学中心的故事,中心主要由一对38岁从对冲基金退休、计划捐赠自己财富90%的夫妇资助。比较形象的展示了近年来最有创业家精神的科学慈善活动。
元科学的愿景
第二部分:去中心化科学“产品”优化过程
“去中心化式”优化系统的瓶颈
想象一下,你是一名研究生,有一个绝妙的改进科学资助的想法。你认为现有学术体系缺陷很大,出于不满,你学习了科学史,研究了替代性的资助模式。你与许多科学家交谈过,并深入思考资源分配还有哪些潜在可能——你的研究范围广泛,涵盖了金融、组织心理学和人类学等领域。你发展出很多想法,又抛弃了其中许多;随时间推移,你的想法开始变得越来越有想象力、有洞察力。你逐渐有了真正的洞察,你相信假以时日,带着这些洞察,你可以创建一个远远优于现状的、新的资助机构。你筹集了启动资金,并开始运营。你发现你的想法中存在一些缺陷,做了进一步的改进。假设,你做了所有这些工作,假设你的想法确实比现有的资助机构,比如NSF和NIH,更适应科学的发展。你的这家机构会迅速成长得比NSF和NIH规模更大、影响力更强吗?在现代,这种事从未发生。也从来没有一个局外人迅速将一家研究机构做大,发展成规模超过哈佛大学、剑桥大学和其他老牌机构的组织。Janelia和Altos这样的例子可能表面上看起来是,但事实并非如此:它们之所以发展壮大,并不是因为它们更优秀;相反,它们只是被富有的捐助者提前赋予了财富。事实上,这种发展壮大的可能性似乎是荒谬的。车库乐队型的研究机构不会发展到世界领先水平。但我们认为,这种变化在科学界是高度可取的,也是可行的。
现代科学的巨大优势之一是,类似的现象确实经常发生在科学思想中:局外人或权力较小的人(例如研究生)用更好的思想取代现有的思想。有很多著名的例子。想想默默无闻的年轻科学家Francis Crick、James Watson和Rosalind Franklin在破译DNA结构的竞赛中战胜了Linus Pauling。Pauling是当时在世最著名的化学家,他率先(错误地!)发表了DNA结构;Crick、Watson和Franklin是一群不知天高地厚的局外人,似乎完全落败。但最终,年轻人是对的,而Pauling是错的,他们的结构几乎立即被科学界所接受,包括Pualing自己!再想想22岁的Brian Josephson,他在超导上的工作被John Bardeen公开反驳,而Bardeen是唯一一个两获诺贝尔物理学奖的人。但Josephson是对的,而Bardeen是错的,物理学界很快站在Josephson这一边。或者,也许有史以来最著名的例子是:26岁的阿尔伯特·爱因斯坦,一个专利局的职员,所提出的有关空间、时间、质量和能量的新概念。几乎在转眼之间,他的思想就战胜了旧思想。
这些例子很崇高。但类似的事也经常发生在相对较低的层级上。研究生们在博士论文中能做的最好的事情之一,就是令人信服地表明,他们前辈的一个著名想法是不完整的(“错误”的委婉表达),或者需要扩展。这就是科学事业建立的方式,也是科学思想更新和改进的方式。虽然过程常常颠簸不平,但科学思想的这种新陈代谢确实很常规。这正是科学的基础所在,而且因为过于常见,以至于常常被认作理所当然。但是,这种情况之所以可以发生,是因为科学在制度上的非凡设计,使得局外人的好想法也能够被公平的倾听,即使它们与社区此时的共识相矛盾。至少从弗朗西斯·培根时代起,人们就理解了这种去中心化思想变革的价值,他主张实验应该拥有最高地位,反对教会和国家权威灌输的观念。皇家学会的座右铭是“不轻信人言”(nullius in verba),这是在1660年选定的,至今仍在使用。当然,我们的科学机构并不总这么理想,不总是能无私的拥抱去中心化的变革想法!有很多例子——想想林恩·马古利斯、格雷戈尔·孟德尔或阿尔弗雷德·魏格纳——当新观念值得被认真对待时,权威机构却抵制它们。尽管如此,我们的科学制度在保护并测试新观念、放大真正的进步方面——即使是来自局外人的想法,总体做的相当出色。
那么,更新科学“产品”的类似过程,又如何呢?我们从一个野心勃勃、试图取代现有机构的研究生形象开始了这一章。但是,这个想法可以覆盖更广的范围,更多的科学“产品”,无论是同行评审、资助、招聘等,还是第一章中所讨论的任何替代性方案。理想世界里,社会制度应该可以允许很多新科学“产品”想法被轻松的测试,然后迅速进入这个元科学学习循环:
这张图中的许多步骤,都可以被今天大胆而富有想象力的资助者完成。但是,有些步骤则很难。特别是,假设你已经试验过新的科学“产品”,并发现它的确优于现状。你如何把这个“产品”规模化?在这一章里,我们将提出,有许多强大的力量在阻碍这种规模化,这种力量是如此之大,以至于今天的许多科学“产品”近乎停滞,几乎无法改变。更广泛地说,在第二章中,我们将讨论是否可以、以及如何走出这种停滞状态,使科学“产品”能够得到更快改善。
当我们批评(比如说)资助机构停滞不前时,我们经常得到情绪强烈的反馈:“那不是真的,资助机构一直在尝试新流程!只要看看大家对资助彩票的兴趣就知道了!”资助彩票的想法是,资助机构不通过同行评审来决定资助结果,而是从申请者(通常在过滤掉明显古怪的想法后)中随机抽取。这种方案是希望增加项目的多样性。这个想法的严肃版本最早是1998年由Daniel Greenberg提出的。自那以后,已经发展了四分之一世纪,并在2010年代后期开始进行小规模试验。现在,2020年代初期,资助彩票开始变成时髦的研究课题。有理由认为,在未来十年左右,资助彩票将得到更广泛的接纳,尽管我们怀疑它们是否会占据主导地位。
资助彩票的确有趣,我们也很高兴看到严肃的试验。但是,我们并不认为这是对停滞不前的反驳。他们是例外,他们的存在,才恰恰证明了规则本身。当一个想法需要花四分之一世纪的时间,才能争取广泛兴趣和得到严肃试验时,很难说这个系统具有活力!理想中有活力的系统,在同一时期,应该有(至少)一百个同样雄心勃勃的想法并行试验。理想中的试验应该如一股洪流,而不是涓涓细流。大多数想法会失败,或者是局部成功。而理想情况下,少数想法将会取得重大成功,这种成功将具有决定性,因此这些想法将被大规模部署。今天的资助系统应该与四分之一世纪前大不相同。这种不同,不仅在于管理机构变得更开心 - 更多流程,更多繁文缛节,更多“问责”要求。不:是科学意义上的大大改善,从而使科学发现呈爆炸式增长。当《纽约时报》发表一篇赞扬2020年小规模彩票资助试验结果的文章时,他们简短地提到了NSF和NIH的回应:“NSF和NIH表示,他们没有测试过资助彩票,目前也没有计划去测试。”优化其资助方法并不是这些机构的首要任务和紧迫问题。只是一些在不影响其他优先级事务的前提下,才会去做的事。
我们认为,科学“产品”的规模化之所以困难,主要有四个原因。首先,科学的控制权集中在少数大型资助机构和有影响力的研究机构手中。如果你让科学家们列举资助、招聘和同行评审的问题,许多人会告诉你大量的问题,并提出改进建议。不幸的是,许多建议的形式是:“NIH(或NSF或《自然》或哈佛或少数其他人)应该(做这样或那样)”。如果NIH或NSF负责人总是积极支持这类提案,那这种程序可能是有效的。但这种情况很少发生。当大多数资源都由少数几个组织控制,而这些组织从设计上就难以接纳根本性的组织变革时,他们本身就会成为瓶颈。
第二,在许多情况下,没有单一的组织或个人可以做出改变。你再次听到:“系统需要以(某种方式)改变激励机制(或规范或流程)”。即使这是真的,也没有单一人士独立对同行评审等流程或高影响期刊具有多高的重要性等问题负责。你无法与“整体科学”的主任会面,并说服他们支持变革。相反,科学是集体行动。这并不意味着个人无法产生重大影响:例如,如果NIH主任对影响因子宣战,他们就可以产生重大影响。但这仍然是一个由共同体共同持有的规范,需要的是集体变革。当然,你可能会私下抱怨激励机制不正确,“应该做些什么”。但是,明智的科学家们往往只是发泄发泄情绪,然后继续他们的科学工作。
第三个因素会强化前两个:即同质化的科学“产品”之间的网络效应。我们一次又一次地听到:“我想尝试新事物——以一种非传统的方式出版,支持学生从事高风险或不时髦的工作,转向一个无人在意的领域——但我对我的学生和同事负有责任,我必须让他们遵守规定。”这是一种社区暴政:人们不敢尝试不寻常的事,因为他们所属的共同体会用怀疑的眼光看待这些事;因此,不寻常的事物永远得不到认真的关注;又因此,共同体对这些可能性,将持续持负面看法。科学共同体拥有各种成熟的机制,以集体改变科学观念,但却没有类似的机制来改变科学“产品”。“未来的阴影”进一步加剧了这种效果:人们担心共同体对他们的未来的评判。例如,假设有人希望以一种非标准的方式分享他们的科学成果:他们必须在这种愿望与(想象中的)未来的招聘或资助委员会的负面评判之间进行权衡。这可能看起来是小事,但共同体评价在科学中是如此重要,以至于它强烈抑制了实验。
这三个因素严重阻碍了现有机构内的变革。显而易见的解决方案是建立新机构,从规则上就忽略前两个因素。例如,这些新机构可以简单宣布禁止员工在高影响力期刊上发表文章,或者大力鼓励高风险工作。但是,当这样做的时候,第三个因素——网络效应——对初创机构的影响更加强烈。考虑去非营利(或营利)的Jazzy Startup Institute工作的科学家必须考虑:他们真的想放弃在高影响力期刊上发表文章吗?或者从事可能不会成功的高风险项目?或者做任何其他违反科学界规范的事情?如果他们决定离开Jazzy Startup Institute,他们会不会难以找到另一份好工作?毕竟,其他潜在雇主并没有因为Jazzy Startup Institute而改变他们的标准。对于这些机构来说,未来的阴影隐隐逼近,导致它们向机构平均值回归。作者之一曾在许多新颖的创业型研究组织工作过。在这些组织中,一个长期存在的问题是:坚持机构本身的抱负,是否会损害我在其他地方找到工作的机会?
现在,让我们假设Jazzy Startup Institute似乎有可能发展壮大,它的标准将成为主导,并取代现有的社区标准。但是,还有第四个瓶颈,那就是没有自然反馈回路来推动新机构的增长。特别是,即使新机构从科学意义衡量是很优秀的,这也并不意味着它一定就会成长到比现有机构大得多。在这四个瓶颈因素作用之下,科学发现的生态系统只能非常缓慢地改变其科学“产品”。
话虽如此,这些瓶颈只适用于某些科学“产品”:那些属于集体持有的“产品”。当“产品”不受中央机构控制,或网络效应共识,或被共同体评价或未来阴影强烈影响时,改变往往是可能的。当我们进行实证研究时,我们在实验室和机构中看到了许多创新做法。例如,我们看到实验室常常有非常不同寻常的导师指导方式、迎接访问学者的操作、或研讨会文化等等。这些科学“产品”的差异超越了上述瓶颈力量,因此可以做单点改变。这些变化是很有趣的,无论是从更好进行科研活动的实用角度,还是作为元科学的研究对象。但它们不在本文范围之内。从这个意义上说,本文是关于改善集体持有、因此受上述瓶颈限制的科学“产品”。在本文的其余部分中,我们将省略"集体持有"一词,希望这点被理解为默认。
我们认为,科学界共同持有的科学“产品”是停滞的。这种停滞状态可以用许多方式来说明,我们现在做简单的举例。这些例子并不能提供决定性证据,而只是可信的说明性案例。
第一个例子是上海排名,这是最早的全球研究型大学排名。自2003年创立以来,历经19年,前10名大学排名几乎没变,只有一个例外(2003年的第8名)。当然,这样的排名并不完美,也许没有捕捉到科学研究的生态系统中的真正变化。但这似乎同样也不能说明系统的活力和变化!相比之下,如果你考虑纳斯达克指数中的前十大科技公司,在同一时期内,它们经历了翻天覆地的变化。2022年最大的公司包括meta(Facebook),它在2003年还不存在;特斯拉,它从2003年开始运营;以及Alphabet(谷歌),它在2003年是前景看好但仍然较小的私人公司。许多其他的今日巨头在2003年时很小,如NVIDIA、亚马逊和苹果。正如我们在本章开始时所提到的画面,一个研究生,根本不可能在2003年创办自己的研究型大学,并在19年内使其发展为世界十大研究机构。然而,类似的事情确实发生在纳斯达克公司身上。科技行业比研究行业更具机构活力。这不是世界固有的事实,而是机构设计方式的一种结果,因此是可以改变的。
另一个说明性案例是Katalin Kariko,她是mRNA疫苗背后的关键科学家之一,这些疫苗帮助终结了主宰世界的COVID-19大流行。Kariko在相对默默无闻的情况下工作了数十年。她的年薪从未超过60,000美元,最终被宾夕法尼亚大学降职。她的资助申请反复被拒绝:“每天晚上我都在工作:资助,资助,资助……而结果总是不,不,不。”一位关键合作者在谈到他们筹集资金的努力时说:“人们对mRNA不感兴趣。审查资助的人说mRNA不是好的治疗方法,所以不要费心了,”并总结了当时的情况:“当你的想法与顶层常识相悖时,就很难取得突破。” Kariko最终离开了大学和学术界。
单独来看,这个故事并不能说明系统停滞不前。相反,它似乎只是NIH和宾夕法尼亚大学的个体错误。任何系统都会犯错。而当我们追问,科学发现的生态系统是否系统性地从这些错误中吸取教训时,系统停滞不前的问题就出现了。NIH或宾夕法尼亚大学对这一失败进行过认真的事后分析,并下决心改变他们的做事方式吗?迹象并不令人鼓舞。通过降职逼走Kariko的宾夕法尼亚大学现在大肆刊登广告,吹嘘“宾夕法尼亚大学的研究人员所取得的突破”使mRNA疫苗问世。美国科学促进会首席执行官Sudip Parikh声称,“mRNA疫苗是我们在NIH的投资加倍的结果”。他并不完全错误:mRNA疫苗研究中一些后来的工作确实受益于NIH的资金。但在至关重要的早期阶段,当资金支持是关键性因素时,答案却总是:“不,不,不。”如果研究组织能够、并且显然会在这些自己有明显的过错的案例中分享功劳,那么科学发现的生态系统如何才能变得更好呢?
Kariko的故事在许多高调场合被一遍遍地讲述,使得这个案例可能会成为例外,并带来真正的改变。但这种模式非常常见。80年代末,分子生物学家Douglas Prasher尝试克隆绿色荧光蛋白(GFP),一种使水母呈现出亮绿色的蛋白。Prasher意识到这种亮绿色使GFP有潜力成为一种优秀的示踪剂,可以用于跟踪细胞位置(在其他生物体中,而不仅仅是水母),从而监测生物体的基因表达。不幸的是,Prasher的进一步资助申请被拒绝了;幸运的是,这项工作被其他科学家接手,其中一些人后来获得2008年诺贝尔化学奖。其中一位获奖者谈到Prasher的贡献时说:“他们本可以把奖颁给Douglas和另外二人,而不是我”。在其他人获得诺贝尔奖时,Prasher却无法在科学界内找到工作,最后成了一家汽车经销商的班车司机。这是诚实正直的工作,对社会有贡献,但同样也是许多人都可以去做的工作。很难不同意他的一位前同事的话,说这是“惊人的人才浪费”。
再说一遍:问题不在于资助机构犯了错误。在高度不确定的条件下运行的大规模系统,总是会犯错误。错误是这一过程中至关重要、也不可避免的部分。真正的问题是,如何让这些系统回应错误、吸取教训。因此,和Kariko的问题一样,我们应该问的是:Prasher的错误是否得到了认真的事后分析?是否因此对资助或招聘实践进行过系统性的改变?再说一遍:据我们所知,没有任何重大的改变举措。不幸的是,科学发现的生态系统目前似乎没有从这些错误中吸取教训。
你可能会说:这些工作最终不是都完成了吗?那么,这些资助失败的案例,是否真的是对现状的有效控诉呢?不做针对性的改变,又有什么关系呢?这种论点的麻烦在于,我们无法知道还有哪些发现根本没有获得过机会。我们仅仅看到了冰山一角,并冷眼看待那些设法找到出路的科学家。但是有多少Kariko被错过了呢?有多少人正在挣扎,也许正处在离开科学的边缘?有多少人已经离开了科学界,或者从来没有机会进入?
不幸的是,在我们所知的科学“产品”的变化中,大多数是朝向官僚主义和“问责制”的变化。官僚机构想要更多的(看似)控制,这或许并不令人惊讶,但这种变化对科学造成的伤害似乎不亚于其所带来的帮助。彼得·希格斯,因提出希格斯玻色子而获得诺贝尔奖的物理学家——在某种意义上,希格斯玻色子是宇宙中物质质量的终极原因——曾表示:“今天,我得不到一份学术界的工作。就这么简单”,并形容自己“在研究评估活动中,是那个让部门难堪的人”。量子计算领域的联合创始人David Deutsch在80年代初,在没有任何资助的情况下构思了量子计算机。后来,1985年,Deutsch获得了一份小额资助,以继续他的工作。2018年,他问资助委员会的一名成员,按2018年的标准,他能否获得资助,结果被告知“没有机会”,他无法满足任何一项标准。在诺贝尔奖获奖演讲中,伟大的分子生物学家Sydney Brenner表示:“我想特别感谢英国Medical Research Council对我的耐心和慷慨支持。这种长期研究在今天是不可能的,因为每个人都只关注有把握的短期结果,没有人愿意冒险。而只有挑战未知,才能带来创新。”2009年, NIH癌症研究所前主任Richard Klausner在《纽约时报》上表示:“关于资助制度,在我所进行过的对话中,充斥着无一例外的共识:它没有起到应有的作用。对于科学家、患者、国家和世界来说,这是可怕的浪费。”自那以后的13年里,NIH——世界上最大的科学资助机构——对其运作方式只进行了较小的、渐进式的改变。
在这一部分中,我们提出,科学中的许多社会进程都处于停滞状态,并确定了导致这种停滞的四个瓶颈力量。我们的论点并非无懈可击,我们也不指望说服那些不想被说服的人。但我们相信,这个论点是可信的,可以继续下去。在本文的其余部分中,我们问道:我们如何避免或削弱这些瓶颈力量,以实现科学“产品”的大规模改进?
成功的原型:社会心理学的复制危机与领域复兴
那么,有没有可能打破这种近乎停滞的状态呢?在理想世界里,我们将讲述许多鼓舞人心的变革故事,并为我们稍后将命名为"元科学创业"的活动制定一份操作指南。不幸的是,抑制的力量是强大的,我们在研究这篇文章时看到的许多例子都令人沮丧:"硬化症的故事"——与其说这是一篇科学论文标题,不如说是一部恐怖电影。尽管如此,我们还是取得过一些局部成功,在本节中,我们将讨论一个令我们钦佩的重大变革,看看我们能学到什么,并试图了解还可以做些什么。
这个例子是社会心理学领域的复制危机,前文有简单涉及。这个危机通常被描述为负面事件,但正如我们将看到的,也可以把它看作科学“产品”改变的某种积极原型,同时也论证了这种改变本身的挑战。这件事中最具标志性的是一篇2015年的杰出论文,该论文试图复制100篇实验社会心理学的论文结果,所有论文都来自心理学顶刊。这篇2015年的文章由自称开放科学合作组织(OSC)的270位作者合作完成,他们发现,在100篇论文中,只有36篇复制品有具统计学意义;相比之下,在原始研究中,97篇都报告了统计上的显著性。此外,复制品的平均效应大约只是原始结果的一半。
这篇论文引发了重大争议;不仅是在社会心理学界,而且是整个科学界。许多人认为从97%下降36%,表明社会心理学存在严重问题。2015年《纽约时报》的一篇文章引用了蒂尔堡大学科学方法与统计学副教授Jelte Wicherts的话:
我认为我们知道或怀疑文献是有问题的,但以如此清晰地方式、在这么大的规模上看到这个问题,这是前所未有的。
自2015年发表以来,开放科学合作(OSC)的这篇论文在七年内被引用了7000多次。有些科学家告诉我们:“我不再相信我在(某个日期之前,通常是2014-2016)之前发表的许多论文了。”这并不是说他们在这些论文中的工作不诚实:相反,他们当时以诚恳和谨慎的态度进行研究,但现在意识到,早期工作中的方法本身并不可靠。
一些著名的社会心理学家对这种愤怒感到不满,在《纽约时报》的同一篇文章中,南加州大学心理学教授Norbert Schwarz评论道:
可复制性无疑是重要的,但它往往只是一种攻击,一种自卫。
哈佛大学和弗吉尼亚大学的研究人员高度批评了这篇2015年的文章,回应也发表在《科学》上,并得出结论说:
我们对改善心理科学的努力表示赞赏,其中许多努力都是谨慎的、负责任和有效的,我们感谢开放科学协作(OSC)所付出的努力。但是元科学也不能免于科学规则。OSC所使用的基准,没有考虑到其数据中的多个误差来源,使用了明显低估真正复制率的松散设计,并允许了相当多、明显偏向复制失败的不诚实行为。因此,OSC严重低估了心理科学的可复制性。
正如这些对话所暗示的,2015年OSC的论文引发了大量反对意见,和一场有力且仍在进行中的对话。不成功的复制结果意味着什么?社会心理学中的某些常用方法,是否存在重大问题?该领域是否需要重大改革?这对其他科学领域意味着什么(如果有的话)?该论文包含许多深思熟虑的告诫,例如:
人们还很容易得出这样的结论:如果无法复制一个结果,那就意味着原始证据是假阳性。但还有很多可能性:如果复制方法与原始方法不同,干扰了对效果的观察,那么复制也可能失败。我们通过使用原始材料、让原始作者审查设计、进行内部审查等方法,来最大限度地减少可能使预期结果不同的先验性原因。尽管如此,样本、设置或程序中的意外因素仍可能改变观察到的效应强弱……在对心理学发现的已发表样本进行这种密集的复制工作后,我们确定了多少效应是真实的?零。我们确定了多少效应是虚假的?零。这是项目设计的局限吗?不。这是科学实践的现实,即使这无法被日常智慧所认可。人类渴望确定性,而科学很少提供确定性……科学进步是一个不断减少不确定性的、累积性的过程,只有当科学本身对其主张始终保持最强力的怀疑时,这一过程才能成功。
正如前文,人们对于复制危机的深层原因存在分歧。然而,许多科学家怀疑,原因在于社会心理学中一些广泛使用的、可能诱导错误结果的做法。例如:只发表具有统计学显著意义的发现。这听起来很合理——毕竟,当事情不顺利时,迅速转向下一个项目难道没有道理吗?这也同样是实际的,因为许多科学期刊极不愿意发表无结果的研究。但这种做法有其阴暗面。如果你做足够多的研究,那你很可能会“偶尔”会获得看似形成“证据”的结果,但实际上只是统计上的巧合。此外,如果无结果很难发表,那这就意味着文献中可能充斥着实际只是统计巧合的“证据”。看似合理的做法,可能会让期刊产生重大偏差。
我们一直关注的,是2015年的OSC论文在复制危机中所扮演的角色。复制危机的出现是逐步发酵的过程。我们无法溯源完整历史,但可以概述背景。一开始,这段简短的历史似乎与本文的脉络无关:没有看到任何科学“产品”的改变!但我们最终会发现,这些看似无关的历史事实,恰恰反映了为什么改变科学“产品”如此困难,以及为了触动改变最终发生,需要做些什么。2015年论文是2011-2015年一系列令人不安的事件的顶点。这一系列始于2011年,当时,著名社会心理学家Diederik Stapel被发现其结果是欺诈性的,涉及大规模伪造数据。从那时起,Stapel的50多篇论文被撤稿。2011年,社会心理学家Daryl Bem发表了利用社会心理学方法展示先知先觉证据的论文(!!)。Bem不是怪人,而是知名且受人尊敬的社会心理学家,在备受瞩目的《人格与社会心理学杂志》上发表了经同行评审的论文。此外,Bem与Stapel的情况有所不同,他没有欺诈的嫌疑。Bem的工作使用的是该领域的标准做法。然而,极度令人惊讶的结果本身提出了尖锐的问题,即这些标准做法是否有时会产生不可靠的结果。
2012年,Stéphane Doyen和同事们发表了一篇论文,试图复制心理学中著名的“priming效应”,即“参与者在不经意间接触了有关年龄刻板印象的资料后,在离开实验室时走得更慢”。这项复制实验失败了。对于该领域来说,这是令人尴尬的失败,部分原因是2011年诺贝尔奖得主Daniel Kahneman出版的畅销书中,详细描述了priming研究。在书中,Kahneman表示:“无法怀疑结果。研究结果不是编造的,也不是统计上的巧合。除了接受主要结论之外,你别无选择。”然而,失败的复制实验导致Kahneman对该领域严重失去信心,他写了一封广泛传播的信,指出“人们对priming结果的稳健性提出了质疑”,“我看到,一场灾难即将来临”。Kahneman的信受到了公众密切关注。
在此背景下,2012年开始,人们开始普遍使用“复制危机”这个短语来描述社会心理学的状态。许多社会心理学家都对其领域的现状感到担忧,令人不安的研究结果不断涌现,直到2015年的OSC论文表明,这些问题不仅零星出现,而是可能影响整个领域。
虽然复制危机在2011-2015年达到顶峰,但其中许多问题已经存在数十年。1985年,著名心理学家Paul Meehl在《软心理学》(soft psychology)中指出了10种“混淆性影响”,这些都是被广泛使用的实践,包括上述仅发表具有统计显著性的研究。Meehl直言不讳:
这十种”混淆性影响”在认识论上的净效应是,正常的研究文献几乎无法解释……如果读者在此处提出反对意见,“好吧,但看在上帝的份上,你实际上是在说,软心理学传统中,用零假设反驳来检验实质性理论是一个错误,”这种抱怨不会困扰我,因为这正是我要说的。
“几乎无法解释”是我们已知的、用以描述一整个领域的、最具毁灭性的短语。其他科学家也经常提出类似的观点,尽管措辞没有这么夸张。1975年,著名社会心理学家Anthony Greenwald也发现显著性检验上的许多相同问题。他还发现,以下行为是有问题的:
提交发表的结果,通常更多是否定了零假设,而非证实零假设……当结果更接近否定零假设时(“接近显著”),人们会继续研究,而当否定零假设的证据不充分时,则放弃该问题……人们不报告初始数据收集(“先导数据”或“虚假开始”)……更严格的编审标准事实上支持了、而不是反对了零假设。
所有这些都是可以理解的做法,都是人性难免的行为。如果你的研究“几乎”显示出统计学显著性,你会忍不住再做几个分析,希望达到显著性的门槛。这样你就可以发表它,而不是放弃几个月的工作,认为它不可发表!不幸的是,这样的做法也可能导致科学文献充斥着错误的结论。正如第一部分所述,2005年,元研究员John Ioannidis发表了一篇题为《为什么大多数发表的研究结果都是错误的》的论文。Ioannidis论文的精髓在于,在许多科学领域,我们都缺乏足够好的理论来告诉我们,哪些假设是合理的,而哪些是不合理的。因此,人们无法避免错误假设;而如果他们碰巧测试了更多的错误假设(比如,错误假设对正确假设是20:1),那在发表的文献中,假阳性可能会超过真阳性!的确,对任何给定的实验数据集,通常可以进行许多不同种类的分析,最终你可能会找到一些看似有趣、似乎也能得到实验数据支持的假设和结论。科学文献将充斥着看似合理的结果,而这些结果实际上只是统计上的巧合,并不代表任何自然现象。
在复制危机达到2011-2015的顶峰之前,Meehl、Greenwald和Ioannidis的论文是被知名科学家高度引用的工作。还有其他类似论文,正确地指出了在社会心理学和其他领域中,标准做法所存在的严重问题。然而,这些有根有据的批评却几乎没有引起科学家中任何明显的实践变化。说白了:2011-2015年之前,引发复制危机的潜在问题已经在几十年里广为人知了。然而,人们几乎什么都没做。
2011-2015年危机的巨大好处是,它非常严重,有助于引发真正的方法和社会变革。其中许多体现为科学“产品”的优化。例子之一是科学家和期刊逐渐采用一种名为“注册报告”的论文发表方法。在标准的论文发表方法中,科学家设计并执行实验,分析结果,然后将描述结果的论文提交给期刊。论文经过同行评议,通过的话,则被发表。要通过同行评议,论文必须在方法上可靠,而且“在科学上是有趣的”。特别是,高调的期刊对“有趣”的标准很高。不幸的是:“我们研究了XX和XX效果,但什么都没有发现”通常不会被认为是“有趣的”。这又诱发了错误动机:作为科学家,你会忍不住继续对你的数据提出不同的问题,直到发现一个似乎符合“有趣”标准的显著效果,然后你终于可以发表了。或者你会忍不住继续收集更多数据,直到得到显著效果(然后就可以发表)。诸如此类。期刊希望发表有趣的正面结果的愿望,似乎既无害,又合理,但却造成了许多不良后果。
注册报告(预注册制)彻底改变了这种模式。其理念是让科学家提前设计他们的研究:要采集哪些数据,要运行哪些分析,要问哪些问题。这些研究设计会被预先公开注册,在采集数据之前,期刊就会审核这些内容。由于还没有采集数据,所以审稿人无从知道结果是否“有趣”。因为(到目前为止)还没有结果!相反,他们要看的是设计是否合理,以及所问的问题是否“有趣”——这与答案是否“有趣”完全不同!只有论文通过这一轮同行评审,实验才会开始,论文也才开始写作。然后是例行的第二轮审核,以确保方法论的合理性,之后论文才会发表。本文撰写时(2022 年),已有300多份期刊开始发表注册报告。
一些令人鼓舞的迹象表明,预注册制正在开始解决上述方法论的问题。考虑以下五张图表。这些图表显示了五项主要研究的结果,每项研究都试图复制社会科学文献中的许多实验。实心圆表示复制结果在统计学上具有显著性,且方向与原始研究相同。空心圆表示未达到这一标准。线上方的圆圈表示复制效果大于原始效果,而线下方表示效果小于原始效果。高度的可复制性意味着高于水平线的大量实心圆。以下是这五项复制研究的实际发现:
可见,前四项复制研究显示,许多复制结果都存在问题 – 或是结果效应有巨大偏移,或是未能达到统计学显著性。这表明可能最初的结果是错误的,或需要进一步调查。第五张图有所不同,在所有情况下都复制了统计学显著性,并且结果效应要均匀得多。这是2020年由John Protzko等人进行的旨在成为“最佳实践”的研究。他们所说的最佳实践,是指预注册制的研究设计,以及:大样本,公开共享代码、数据和其他方法学材料,使实验和分析更容易复制。进行原始研究的实验室各自都复制了实验,以进行自我确认;然后他们要求另外三个实验室进行复制 - 上面的第五张图表显示了这些独立复制的综合结果。简而言之,第五张图中采用的研究标准远远高于过往。当然,这并不表明结果就一定是真实的。但它们是非常鼓舞人心的,并表明像预注册制这样的想法一旦得到广泛传播,有助于取得实质性进展。
虽然复制危机通常被描述为负面事件,但我们认为,回顾过去,2010年代将被视为社会心理学复兴的开端。2011-2015并非一个消极的时代,而是一个人们开始关注几十年来的痼疾,并积极采取行动的时代。最终结果可能是该领域的极大改善。这将表现在改进的规范、工具、和培训上,但所有这些都是通过新的科学“产品”实现的,这些“产品”可能包括预注册制的广泛使用,开放共享数据和其他材料等想法。
尽管如此,这项工作仍在进行中。代码和数据共享以帮助实现复制正在迅速增长,但远未普及。目前还不清楚预注册的最优使用频率。非预注册对于早期的快速探索性工作是有用的;完全消除这种风格将使心理学倒退。能够快速不严谨地探索是很重要的!这样的探索性研究应该继续,但我们需要更加谨慎地思考结果。除了这些探索性研究,有更严谨的、采用预注册的研究,将提供更高的证据标准。最终结果可能是两种或更多的常规发表风格,具有不同的认识论地位。抛开这些猜想,潜在的变化仍然处于萌芽状态:人们价值观的变化,民间非正式的科学模式,以及这些模式在科学“产品”中的具体呈现。但是,虽然处于萌芽状态,进展是令人鼓舞的。这是一个说明科学“产品”正在发生涉及整个领域的重大变化的例子。社会心理学正在经历重大文化变革。
当我们与元科学界的同事讨论复制危机时,我们偶尔会被告知,有关复制的工作是“好的,但很无聊”。它不是浮华的新研究机构中令人难以置信的乐观主义,也不是新资助方法的花哨想法。没有人会发表带着胜利姿态的采访,讲述他们是如何拯救科学的。这是一系列简单但强大的社会和方法论变革的想法,这些变革将使社会心理学更加可靠。虽然它并不浮华,但它正在扩大规模。不仅仅是一两个单点变化,而是对心理学运作的科学“产品”进行重大而广泛的结构变革。这是在几十年的无所作为之后,才开始产生的。这是科学“产品”如何改变的一个宝贵例子,从中我们可以学到很多。
向社会心理学复兴学习
任何一次危机,都不该被浪费。——Paul Romer
我们能从社会心理学复兴中学到什么?对我们来说,一个重要教训是,深刻的危机可以帮助科学“产品”的广泛变革。正如我们看到的,几十年来,知名科学家已经指出了社会心理学实践中存在的问题,并提出了解决方案。然而,这些洞察并没有产生重大危机,也没有产生实质性变革。轻微的危机——Bem 2011年的先知论文,或Doyen在2012年未能复制的priming研究——也不够。2015年的开放科学合作才让这场危机尖锐起来。直到那时,科学家和机构中的大多数才开始愿意考虑替代方式。
当然,仅仅只有一场危机,也是不够的。它需要新颖而深刻的想法,比如预注册制,以及围绕这些想法的工具和基础设施。它需要与期刊和其他组织建立合作伙伴关系,以便“产品”有机会被广泛采用。它需要塑造品牌、需要营销手段和叙事技巧,以被广泛传播,并开始改变科学家的内在价值观。它需要建立更多的工具和基础设施,来存储代码、数据和材料,以实现更轻松的复制。而且,正如我们将看到的,它需要机构建设。如果在严重危机之前,没有这些机构建设,该领域仍将停滞不前。从这个意义上说,危机为变革创造了条件。但它需要许多其他因素来促成变革。
许多必备元素都超出了科学家的能力。想想看,Greenwald、Meehl和Ioannidis都在做学术研究科学家通常做的事情:提出想法、发表洞察、发表论文。但是,尽管想法和洞察很重要,它们本身并不足以产生变革。科学家通常“不应该”参与构建工具和基础设施,除非是为了其科学工作中立即需要的数据,他们通常也“不应该”参与品牌和营销活动,许多科学家对这些活动嗤之以鼻。然而,这些活动对文化变革却至关重要。因此,实现变革的必要工作,并不是传统视角中科学家工作的一部分。这是实现变革的主要障碍。
许多人在引发复制危机方面都发挥了重要作用。但也许没有人的贡献能超过Brian Nosek。Nosek是一位社会心理学家,直到2013年,他一直是弗吉尼亚大学的教授。2013年,他辞去终身教职,与他人联合创办了开放科学中心(COS),该中心是独立非营利组织(联合创始人是Jeff Spies,当时Nosek实验室的研究生)。Nosek和开放科学中心是2015年论文的关键组织者。他们(参与者包括Daniël Lakens,Chris Chambers等)还开发了预注册制,特别是,他们创办并运营OSF网站,该网站是支持预注册制的关键基础设施。这还不是OSF的全部功能,它也是科学家共享论文、代码和数据的通用平台,旨在使实验复制变得更容易。最后,Nosek一直是可复制性的公开倡导者,通过实地工作来改变科学家对该课题的看法,这既需要强有力的科学论据,也需要良好的营销和品牌建设。简而言之,Nosek和COS是推动社会心理学大规模系统性变革的关键人物,他们正在帮助改变科学文化。
COS的起源故事很有趣。2007年和2008年,Nosek向NSF和NIH提交了多项资助申请,其中许多想法最终发展成COS。所有申请都被拒绝了。2008年到2012年,他放弃了申请元科学资助。相反,他主要用自己的演讲费资助实验室。Nosek的研究生Jeff Spies做了一些初步工作,开发了后来成为OSF的网站。2012年,媒体开始关注,并因此引起了几家私人基金会的注意,其中包括对冲基金经理、亿万富翁John Arnold及其妻子Laura Arnold的基金会。Arnold基金会主动联系他们,并很快同意提供一些资金,最终以525万美元资助的形式提供。
在资金支持下,Nosek于2013年离开弗吉尼亚大学,创办了开放科学中心。这看起来很奇怪:为什么不把它留在大学里呢?但是,正如我们所看到的,开放科学中心的工作不是传统意义上的社会心理学。相反,Nosek属于另一类人:元科学企业家,致力于实现科学“产品”的规模化。独立的开放科学中心让他们获得了在传统学术环境中难以实现的运营上的自由。例如,在许多大学里,雇佣设计师和程序员来开发像OSF和注册报告这样的基础设施是困难和缓慢的。Nosek估计,开放科学中心中,大约五分之一的员工不会被视为传统意义上的研究人员。在学术环境中试图雇佣这些人时,会一再遭到反对,理由是“这不是真正的科学”。回顾过去,具有讽刺意味的是:Nosek和开放科学中心正在对心理学产生巨大影响,因为他们将元科学置于其实践的核心。这是一种更广义的科学家形象。
这个故事形象地反映了我们之前讨论过的许多抑制因素。考虑一下“这不是真正的科学”的问题:科学“产品”的变化不是任何人的工作,当然也就不是科学家的工作。或者通过传统渠道筹集资金的挑战:在我们看来,COS最终从非传统渠道筹集资金并非偶然。然后是来自重要同行的敌意这种结构性障碍。Nosek说,一位记者曾告诉他,一位“大人物”同行说“Nosek是心甘情愿被John Arnold支配的傻瓜”。在2015年文章发表后成为《科学》杂志编辑的Tage Rai多次抨击复制工作,例如,他声称“是强大的私人和政府利益集团,希望利用复制危机来决定你可以进行什么样的研究”,并直接抨击Nosek。因此,重复危机是一个坚持不懈的故事,不仅是Nosek的坚持,而且所有参与者的坚持。我们在这里提出,文化变革往往是由对科学中强大机构的持续批判所推动的。这需要勇气,并可能对职业产生重大影响,在科学的自我管理模式下,个人的未来由同事的判断所决定。为科学机构制造危机是一个非常不受欢迎的职业举动。
Nosek和开放科学中心在社会心理学复兴中发挥了关键作用。然而,像我们这样单独挑出一个人是不公平和不完整的:我们描述的工作是涉及成百上千的其他人的运动的一部分。不幸的是,复制危机的详细历史超出了我们的范围。对于那些我们不公平地遗漏了工作的人,我们表示歉意。我们给出这个不完整的历史的原因是因为它突出了科学“产品”变化中的一个重要模式:元科学企业家。
本文2024年9月1日发表于微信公众号 瀚海之因(),风云之声获授权转载。