重新认识国际化时代的大学评估

重新认识国际化时代的大学评估

本文作者季卫东教授

一、 为什么学科评估和各种大学排名榜日益盛行

21世纪中国经济的荣衰,在很大程度上取决于知识、技术以及制度设计的创新。也就是说,产业的可持续发展、社会福利的提升将主要依靠脑力竞争定胜负。而脑力的培育、聚集、作用的最重要平台是高等教育和尖端研究,这两者的结合点就在大学。于是,不难理解政府为什么要不断加快建设世界一流大学的步伐。

其结果,最近十余年来高等教育受到前所未有的重视,大学、特别是重点大学的影响力越来越大,经费规模也越来越大。高额的投资当然也要求相应的回报,因而对高校进行成本计算、绩效检查以及问责的必要性也随之日益加强。这正是考核、评估、排名榜以及指标管理大行其道的原因或者社会背景。为此,1993年颁布的《中国教育改革和发展纲要》规定:“建立各级各类教育的质量标准和评估指标体系,各地教育部门要把检查评估学校教育质量作为一项经常性的任务。”教育部在2002年制订了《普通高等学校本科教学工作水平评估方案(试行)》,确立新的考核指标体系。十年之后,教育部下达《关于全面提高高等教育质量的若干意见》,着手进一步完善人才培养质量指标体系。

在中国的教育界,绝大多数资源的分配由政府一锤定音。为了使计划和预算方案更加言之成理、持之有据,中央和地方的行政主管部门必然倾向于把各种任务指标和结果鉴定作为相关经费这块蛋糕切割给予的依据。既然大学的考核、评估是与资金投入的额度直接挂钩的,那么,各高校就一定会积极迎合这样的考评。于是乎,行政主导下的教育发展也就有了方便的抓手。在这个意义上,考评倒是有利于提高管理绩效的。没有这样的数量化指标管理,就很难有如此迅速的大学扩张和跨越式进步。但反过来看,与预算分配挂钩的考评则会进一步推动大学的行政化,并不断扩张主管部门的权力。因为排名既是诱因,也是一种隐性权力,更是调整高教界行为趋势的指挥棒。

显而易见,这里存在“高校对学术自由、教育特色的追求”与“有目的、有计划的政府重点投资政策”之间的紧张关系。如果政府对大学干预太多、问责太强,最终将会损伤乃至扼杀大学的自主性和活力。

《中国教育改革和发展纲要》

随着市场机制的导入,整个社会也更加重视教育的投入、产出以及研究成果进行测定和比较,围绕威信、捐款以及学费的战术性竞争对于大学的重要性也越来越凸显。在招生以及就业等方面,应试培训机构、信息产业、猎头公司以及大众传播媒介可以从大学院系、专业的评估和排序中找到大量商机,因而会非常积极地利用行政部门的权威数据库,并自主进行一些调查分析。实际上,正是政府与市场的联手作用把大学教师和研究者推进了一个“考核指标万能的时代”。

毋庸讳言,研究和教育的功能本来很难定量化,也很难全面进行数值测定。在强调学术创新和人才培养特色的多元化时代脉络之中,对所有大学的价值按照统一的简单标准进行排序往往是无意义的,甚至会带来很大的副作用。但是,我们又不得不正视这样的事实:大学在本质上对社会声誉和信用度的依赖度很高,嫌恶良莠不齐、滥竽充数的状态,需要借助某种显性的尺度来分辨竞争的胜负方、区别不同档次、确保一定的品位。

《国家中长期教育改革和发展规划纲要(2010-2020年)》

教育的性质决定了供给方与需求方的信息非对称,学生及其家长对教师的专业水平、授课的内容、毕业证书的含金量往往缺乏必要的、充分的了解,因而在填报入学志愿时特别需要可供参考的判断材料以防止教育欺诈。在这个意义上,排名榜也可以理解为防止“文凭厂商”(diploma mill)泛滥成灾的学位信用屏障。

另外,在全球化时代,大学之间的竞争跨越国界、越演越烈,优胜劣汰的压力也迫使大学自身非常在意各种各样的评估和国际排名榜,需要通过某种可以观察、可以比较的位次证明自己的存在价值。尤其在大学向上流动的意愿高昂之际,评估资料的有用性会更加凸显。而量化指标和考核数据(例如,新生质量、生师比、研究生入学成绩、专职教师与博士学位取得者的比例、教师的素质和待遇、论文发表数、被引次数、科研项目数、课题经费数、获得奖项的次数等)能让评估显得客观、公正,具有可比性和可沟通性。

所以,绝大多数大学、院系以及教师们对基于评估的序列化(包括各种国际性排名榜)多半持欲拒还迎的态度,考生家长和传媒则起到推波助澜的作用。

“文凭厂商”(diploma mill)

二、 作为评估对象的学术质量及其衡量尺度

对研究和教育进行评估,对象当然是质量。根据伍德豪斯(David Woodhouse)在1999年提出的专题研究报告,所谓质量,通常与卓越、杰出表现联系在一起,但现在更重视切合目的这一方面。无论如何,质量这一概念都包含不可能仅仅用数量加以测定的价值,卓越、杰出、目的都与价值的内涵密切联系在一起,更有赖于实质性判断。在教育质量以及管理质量方面,数量化指标管理(例如,Dublin Descriptors,ISO9001:2000 on education)还是相对比较容易接受的,但在学术质量的标准上就更难免发生仁者见仁、智者见智的争议。

然而,我们面对的现实情况是:评估的宗旨在于保证质量,但评估的方法却不得不一概采取测量数值、指标等形式。越想进行客观的、公正的评估,越想避免主观任意性、争议以及攀比现象,就越倾向于把质量转换成数量指标。因而在某种意义上也可以说,没有数量就没有质量。毋庸讳言,对目前中国绝大多数高校,数量和规模的发展还是当务之急,所以,具体指标管理的方式不可能、也不应该废止。但是,如果缺乏反思理性和审慎安排,这样一味做下去的结果却很可能本末颠倒,甚至使大学评估出现异化,脱离质量的价值内涵,脱离教育和研究的初始目的,流于机械化的形式主义。也就是说,我们试图追求内涵式发展,但采取的方法却主要是片面强调数量,推动各高校、各院系围绕各种统计数据进行竞争。当这种竞争走火入魔之后,就变得像在不断演绎那个关于乌鸦披上各种珍禽羽毛到上帝面前参加选美竞赛的《伊索寓言》,令人哭笑不得。这正是当今中国大学评估的质与量的悖论。

《Quality in Higher Education》杂志

概而论之,学术作为是一种高尚的精神活动,包含沟通、创新以及批判这三重涵义。在理念的层面,学术的本质不是对既存事物的理解和传达,而是对用于理解对象的语言本身不断进行重组和创造,从而不断改进人们观察和认识世界的范式和工具性框架。学术发展的方向应该是普遍性。因为记述的知识内容是不应该被记述者的主观任意性所左右的,是可以重复验证或者反证的。

学术普遍性的具体表现是,任何人按照同样的方法或程序,可以得出同样的观察结果。任何人,只要他属于同一知识共同体,都可以理解学术成果的涵义,必要时也可以参加对话和辩驳。所以,从事研究的人不能仅仅站在自己的立场上思考和论述,而必须站在普遍性的立场上,使自己的认识和表达对他者、对沟通活动都开放。自说自话、盲目的信仰以及价值观的宣传,理应与高校里的学术活动无缘。尤其对理工科而言,强调批判理性、客观性以及普遍性的上述学术观是不言自明的公理,所以,正确结果的检验和质量的评估都是比较容易进行数值测定的。

然而,文科主要以人或者人际关系为研究对象,需要通过特定的文化背景、脉络中的涵义以及历史演变过程来把握知识的内容。换个表述,人文社会科学领域中的真理必须在研究者与研究对象以及其他主体之间的可变性关系中来把握,具有相当的不确定性或者不完全性。实际上,至少从海森堡(Werner K. Heisenberg)或者哥德尔(Kurt Godel)以来,即便在理工科领域,普遍化、形式化理论的局限也已经广为人知,遑论文科。这么说当然并不等于完全否认普遍性和放之四海而皆准的真理的存在,也不等于采取彻底的相对主义立场。这里指出的只是长期以来认识论上的一个盲点。

海森堡

从范式转换的角度来看,文科的学术活动不得不以存在复数的记述体系、复数的正确答案、复数的普遍性、复数的真理为前提,不断探讨使原理以及道德判断正当化的适当理由。例如,托尔明(Stephan E. Toulmin)提倡的“优化求证法”(good reasons approach)。文科研究的乐趣恰好在于多层多样的话语空间及其重叠和交汇,在于沟通行为的开放性,在于对话内容的丰饶和色彩斑斓。文科研究的醍醐味可以理解为话语的因势利导,主要通过一系列越来越具有普遍性的对话和沟通来达成共识,更准确地说,就是罗尔斯(John Rowls)的所谓“反思均衡”(reflective equilibrium)以及“重叠共识”(overlapping consensus)。不难想象,贯穿于这类对话和沟通中的基本原理是公正(fairness)。在这里,公正就意味在自我与他者之间具有实践意义的、比较相对化的普遍性。因而研究就是不断追求公正的实践,特别强调对话和沟通的伦理(包括与fair play 相关的程序性伦理)以及对不公正的批评。

尤其是在法学界,几乎所有研究都属于实践性知识的范畴,几乎所有成果都与“善与权衡的技艺”相联系,因此,相应的对话和沟通自始至终都包含价值的评判。在法学院,特别是在成文法系的高层次职业教育机构,与法律相关的知识主要由两大部分组成,即法教义学(与规范对应)与法社会学(与事实对应)。

法教义学采取以法律为教条的立场,以法律体系的无谬性为出发的前提,并试图在毫不怀疑从法律规范中能找到正确答案的基础上建构一个自洽的、没有矛盾的体系。例如,德国普夫塔(Georg F. Puchta)的概念法学奉行逻辑至上主义,通过法条的三段论推理、内容包摄技术以及个案中的概念计算来解决审判问题,轻视社会环境和历史背景对法律思维的意义。但是,进入20世纪后,法教义学不能适应日益动态化、复杂化的事实以及社会需求。于是在德国出现了自由法学运动,在美国出现了法律现实主义运动,试图克服法教义学的僵化问题。 其结果是法官的裁量权大幅度伸张,法律规范不再具有绝对真理的地位。正如哈特(Herbert L. A. Hart)所说,司法如何在 “确定的内核”(core of certainty)与“怀疑的阴翳”(penumbra of doubt)之间保持客观性、公正性成为法学的时代任务。在预测判决的呼声中,法社会学应运而兴。法社会学强调作为科学的法律观和作为工程技术的法律观,与理工科的思维方式颇有相通之处,侧重批判理性、客观性以及普遍性。但不得不指出,法学的主流毕竟是规范本身而不是与规范相关的现象或事实,而法社会学的研究范式近些年来也在发生从结构到过程、从功能到涵义、从客观性/主观性到主观间性(intersubjectivity)的变化。

哈特

总之,在人文社会科学领域,也包括法学界,研究对象具有不断增大的复杂性、多元性以及互动性,不可能一言以蔽之,也不可能同理而论之。因此,必须承认不同记述和不同逻辑的并存以及各种各样的排列组合,必须为学术保留一些暧昧的、非决定论的空间。当然,这实际上也在提示人们,文科的研究活动不应该在某一专业的疆域内固步自封,要注重学科交叉,要注重不同知识领域之间的结合与互动,要注重在众多主体交涉中形成的共同建构。

对于人文社会科学而言,学术的本质是发现或者邂逅未知对象,与之进行对话,进而通过沟通和诠释不断实现话语体系的自我更新或者革命。通过与他者的交流而实现相互理解,在反驳和商谈中进行知识创新,并通过涵义的解释达成共识,这一切都要求索绪尔(Ferdinand de Saussure)、乔姆斯基(Avram N. Chomsky)之流的语言理论作为新的研究范式。在这样的视野里,任何词汇、概念、命题、理论以及逻辑都不是绝对的,研究方法也更具有动态性,强调怀疑和批判。简而言之,什么都有(兼容并蓄),但并非有什么都行(思想交锋)——这才是人文社会科学的创造性和竞争力的本质性条件。为此,文科的发展特别需要自由和宽容的环境。正因为结论的可能性是复数的、不那么透明的,所以,对文科研究的评估也就很难数量化。

乔姆斯基

三、教师和研究者的考核与数量化指标管理

然而,当今的文科研究和教学根本就无法逃避大学管理层下达的任务指标和量化要求,遑论比较容易进行数字化管理的理工科。各院系也不得不层层进行压力传递,对所有专业教师采取严格考核和奖惩的措施。其结果,无论从哪个角度来看,当今中国的校园都变得越来越像企业厂区,形成并且不断发展福柯(Michel Foucault)所描绘的那种规格化的权力关系。在一定目标管理模式之下,教育和研究的各种活动都被分解为一系列的量化监控指标,在每一个具体环节和时点都在进行观测、统计、登记以及考核。

环视中国各高校,似乎所有学者和专家都在相当程度上被视作脑力工人,薪酬待遇大都与任务数值指标完成情况挂钩,基本上是实行某种计件工资制、甚至类似农村集体经济体制下的工分制。在现阶段,这样的做法或许是必要的、有效的,也符合学术共同体尚未成型、难以开展坦诚的和高水准的同行评价之类的国情。但不得不指出,如果这样的评估体系过于全面、严格以及长期存在,没有相当比例的非竞争性收入作为坐冷板凳专心向学的物质保障,同时也没有为实质性判断留出足够的回旋余地,就很有可能使那些不善于、或者不屑于钻营指标的一部分真正研究者日益边缘化,导致学术精神的枯萎。

福柯

在大多数高校的考核与评估中,期刊论文的重要度远远高于专著,理由是经过专业编辑筛选、特别是匿名评审之后录用的稿件比出版社相对自由发行的书籍在质量方面更有保障。为此对各种杂志也进行了分级排名,并确立一篇A类期刊论文折抵几篇B类、C类期刊论文之类的规则。这样做固然有其合理性。问题出在把这些标准绝对化以及操作上的机械化上。

由于存在详细的数量化指标可以逐一对号入座,人们不再考虑对论文和著作的内容是否有真知灼见进行实质性判断的必要性。在相当程度上可以说,是期刊编辑或者指标自动化测量系统在直接决定一个教授的研究成果评价、一个青年学者升迁荣辱的命运。这样的光景在绝大多数外国高校或者健全的学术界是不可想象的。虽然美国的大学也强调论文数、发表期刊的影响因子以及被他人引用的次数,但在人事评审之际,更重视的是同行对研究内容的实质性判断。例如哈佛大学采取的方式是设立特别委员会或常设委员会(通常由七人组成)对教授候选人进行长时间的调研和讨论。日本的大学则由三名以上的教授对候选人的研究和教学情况进行详细考察,分别提出实名书面审议报告,并在全体教授会议上进行讨论。

东京大学的安田讲堂

在中国的有些地方,一本大部头专著可能只被视同为两篇CSSCI论文,对非SSCI类的海外(例如欧洲和日本)著名期刊连载的论文的评价可能被贬低得甚至不如某些非学术性权威报纸、杂志的短文,甚至某位行政长官的几个批字。对特定报刊文摘资料刊物上的转载进行加分和升级的规定也助长了各种非学术活动、甚至精巧的利己主义投机行为的积极性。

假如严格用这样一系列奇特的组合标准来逐个衡量,有些国际学界泰斗、诺贝尔奖得主恐怕也是无法过关的,甚至当不了当今中国的教授。例如,囊括世界上所有数学大奖的俄罗斯天才孔采维奇(Maxim Kontsevich),没有本科毕业文凭,一些代表作只有预印本,证明Milnor猜想的论文迄今为止只有网络版,仍未正式发表。又如,美国制度派经济学家科斯(Ronald H. Coase),仅凭两篇开创性论文获得诺贝尔经济学奖,毕生研究成果只有一本论文集。既然这样的人根本就无法在目前中国大学那种急功近利的氛围里生存下去,那么,我们也就不难找到解答所谓“钱学森之问”的些许线索。

科斯

科研资助项目的有无和档次高低对高校教师职称晋升也具有决定性意义。站在大学的立场上看,竞争性资金的获得对于研究和教育的发展非常重要,当然要鼓励教师去争取,具体手段就是把获得科研项目数和金额作为考核和评估的指标,并通过与职称晋升挂钩的方式增强教师的内在动因。这样的做法倒也是无可厚非的。然而,我们必须清醒地认识到,经费增加了并不等于教学和研究的质量就一定会相应地提高,尽管经费的重要度在不同学科有些差异。如果片面地把科研项目作为评价指标并且过度强调经费规模,怎样改进教学和科研这样的初衷和政府政策就有可能被扭曲,申请项目不知不觉地蜕变成获得资金的手段,并且不断刺激花钱的欲望,甚至引起大面积的学术腐败。结果很可能是资源投入更多了,成果产出却未必增加,创新更无从谈起。

近年来,为了创办世界一流大学、支持知识创新,政府加大了对教育和研究的资金投入,毫无疑问这是值得欢迎的动向。为了分配不断增加的经费,有关行政部门往往会增加各种开支理由,例如,各类智库遍地开花,跟出版社联手建立的文库也蔚为大观,还有短期、中期以及长期的发展规划以及不同层次的申报和审批手续等等,并通过预算诱导和制裁举措来驾驭大学、研究所以及出版社。各高校和院系也闻风而动,把为了花钱而增设的大量项目又转化成新的考核指标和排名榜,以增强教师和研究人员找钱的动机。如此循环反复,势必把好事办砸,形成一个越来越大的、自娱自乐的评估磁场,把大家都卷入某种围绕层出不穷的圈钱指标而进行的大竞赛,助长学界的浮躁。在这个过程中,实际上行政权力的活动范围在不断拓展,与教育部正在推动的加强大学自治性和以院为实体的改革颇有南辕北辙之势。

丁学良著《什么是世界一流大学》

四、高等教育的全球竞争时代与评价方式改革

互联网上的慕课平台、世界著名大学的中国校园、来自境外的招生广告,这一切都在警示我们:高等教育已经进入全球竞争时代,因而也就不得不面对国际学科排名榜的压力。这也意味着考核与评估本身是无从回避的,但是,我们不可能继续停留在国内语境里,重复现有的那些行政化色彩极其浓厚的指标游戏。这么说并不是要否定考核、评估、排名以及数量化指标管理。关键的问题在于怎样改进考评的主体、方式、标准以及怎样确保教学和研究质量的制度,从而真正推动内涵式发展。在相当程度上,这个问题也不妨转换成评估标准国际化之议。在国际社会,对大学的评价是否应该由政府来进行、是否应该跟预算分配直接联系起来,在学者之间是存在很大争议的。例如,荷兰大学协会的高教研究专家费洛伊恩斯汀(A. I. Vroeijenstijn)博士在1995年出版的关于高等教育评价和问责的专著中,特别强调基于大学自治原则进行考察和鉴定的意义,反对行政性排名。

在日本国立教育研究所担任过部门负责人的喜多村和之教授曾经对大学评估的构成因素进行分析。他把评估的目的分为组织或个人的自我诊断、功能的自我改善和提高、质量保证、资质认证、设置许可、检查鉴定、消费者(学生及家长)保护、入学选校、预算分配、资源有效利用、监督、问责、管制、政策评价、成果鉴定等。评价的主体则分为第一者(包括院系、管理者、教职员在内的大学以及大学团体),第二者(学生、家长、雇主、企业等),第三者(标准认定机构、大学评估机构、资源分配机构、大众传媒、应试产业、信息产业)以及作为监督机关的政府等四种基本类型。评价的方式包括:合格认定、审批、特许、设置许可、成绩或绩效的测定、排名榜、区分等级及其他。从各国的实践来看,自我鉴定、匿名审查、第三者评估以及实地考察是进行大学评估的主要手段。评价的标准既有客观资料,也有专家的主观评分以及不同标准的组合。从上述因素可以了解到大学评估的确是非常复杂而困难的作业,尽管力争采取客观的、多元的标准,但还是很难完全排除主观的价值判断。

喜多村和之

为了防止考核与评估的异化,必须把数量化指标管理与大学的基本功能以及知识反馈机制密切结合起来。包括学术和科技在内的知识体系的形成和发展主要包括三个方面,即知识的发现和创造(研究)、知识的传授和继承(教育)以及知识的应用(社会服务)。在研究和教育这两个方面,从学术自由和大学自治的角度来看,第一者的自我检查和自我鉴定是非常重要的。对研究的质量保证而言,除了第一者评价外,第二者评价和第三者评价也都同样是不可或缺的。实际上,在各种指标的确立和考核过程中,研究最受重视,也相对比较容易测量。而对教育的质量,应该更多地侧重第二者评价(例如对学生进行关于每一课程及每位教师满意度的问卷调查、雇主或企业对就业学生的评判)。在这里,最根本的是大学三种基本功能的充实以及教育和研究的质量提升,考核和评估只是为了达到上述实质性目的之手段。决不能反过来,把各种指标的显示度作为大学管理的目的。

处于现阶段的中国高校,为了实现赶超型发展的宏愿,有必要对教师和研究者进行考核、对学科进行定期评估,并为此制订发展规划和任务指标体系。即便从外部环境来看,这些做法也是可以理解的,很难轻言放弃。对于那些能够达到乃至超过任务指标的人,当然应该给予适当的评价和奖励。但是,如果数量化管理完全采取“一刀切”的方式,在指标设定上缺乏关于大学评价理论和方法的周密考量,那就会出现事与愿违、有名无实的结果,压抑研究和教育的生机和创新力。

梁漱溟

最理想的教师和研究者应该充分兼顾形式要件和实质要件的,但这样全面的人才毕竟为数不多,真正有学术卓识而又完全达到所有指标要求的可谓凤毛麟角。一些独具洞察力的杰出学者往往个性也非常强,与高度行政化的各种指标很难吻合,如果拘泥一格、求全责备,那就势必扼杀不少潜在的天才。因此,要网开一面,通过加强学术批评、同行审查、承认代表作的价值、容许理由正当的破格等方式,为那些有真知灼见和不可替代性的人物留下实质判断的机会。曾记否,蔡元培和陈独秀聘任并未受过系统教育却有宗教和哲学造诣的梁漱溟到北京大学持教,吴宓和梁启超力荐才华横溢却不满足形式要件的陈寅恪就职清华大学国学研究院导师,但愿这类慧眼识人的佳话不至于成为民国时代之后的绝响。

另外,在目前的大学薪酬体系中,固化收入比重太小,竞争性、时效性的津贴部分比重过大,不利于安心做学问。在国外大学,教师的定额月薪或年薪就足以维持中等偏上的体面生活,每年还发放没有竞争性的书籍购买经费、参加学术会议的差旅费及其他研究资金,尽管金额不大,都是平均分配的。科研项目资助以及竞争性资金纯粹是为研究需要而申请,而不必伴随着其他短期利益的计算。即使没有这些经费来源,一个学者(尤其在文科领域)也可以毫无障碍地从事日常研究和教学。我们也应该适当提高非竞争性收入和经费的额度,否则宁静、纯洁、高雅的学术氛围就难以形成和维持。

陈寅恪

如果固定月薪的金额本身不足以维持生活和工作所需,必须另外争取大量竞争性项目经费和奖励资金,而这些资源本身的规模很有限、评审的行政性质很强、并且与任务指标挂钩和伴随着额度不小的配套资金或奖励金,那就不难想象人们的行为方式会围绕这样的资源分配过程发生何种变化。在压力和诱惑之下,寻租、贿买、交易、回扣、徇私等各种现象势必防不胜防,其结果只能是“逼良为娼”、斯文扫地。在这样的氛围里,数量化指标管理越严格、竞争越激烈,学术的环境污染也就越严重,那些卓越的、清高的或者钻牛角尖的教师和研究者就会面临越来越多的困惑、尴尬、窘迫。换句话说,在这种游戏规则下的驱动力越大,恐怕离建设世界一流大学的既定目标反倒越远。

[原文载于《清华大学学报》(哲学社会科学版)2014年第5期,作者:季卫东,上海交通大学法学院]

编辑:若水

亲爱的凤凰网用户:

您当前使用的浏览器版本过低,导致网站不能正常访问,建议升级浏览器

第三方浏览器推荐:

谷歌(Chrome)浏览器 下载

360安全浏览器 下载