此文是我为台湾社会价值与社会影响力论坛所准备的发言稿。论坛明日才举行,提前发布,大家先睹为快。
评估是我的主业。近些年,评估需求很旺,我所在的机构没断过活。但大约在2014年中旬,我开始有所犹豫,主动拓展新客户的动力大不如前。有些朋友以为,我对评估兴趣下降了,但真实情况正好相反,我不但没有退缩,反而是在力求精进。我试图突破一些东西,希望更加聚焦也更加有选择性地看待和实践评估。我感觉自己正在形成自己的见解,虽然它现在还有些模糊,但说不定它能颠覆常规的评估框架,蔚蔚然成一种全新的风气呢?
一、过往工作的得失
回顾过往的工作,我问自己,“除了养活我个人以及团队之外,我们给客户以及中国公益带来了什么变化?”,“为了实现这些变化,有没有更加有效也更加经济的方法?”。这是评估的元问题。当我们给别人做评估的时候,就是在评测项目带来的变化。而作为职业评估从业者,我们也必须问问自己。
变化是有的!我比较有信心的,至少有两项。
其一,每次评估,我们都会和客户一起梳理机构/项目的变化理论:他们期望实现什么变化,变化如何发生,评价指标是什么,如此等等。这通常都是客户第一次认真地审视自己的变化理论。每次评估,我们都能为客户留下一个更合逻辑的框架,帮助他们更好地描述和表达自己的机构/项目。
其二,评估通常也是客户为数不多的系统地收集利益相关方的反馈和建议的时候,如果情境合适,我们邀请客户参与一些访谈和焦点小组,利益相关方沟通的震撼就更为明显。虽然,每家机构理应与服务对象及其他利益相关方保持密切互动,但现实从来都不按照“理应”的方式运转。
当我把成效归结为上述两点时,意味着我认为,在我们过往的实践中,评估过程比评估报告的价值还要大些。我们的评估报告很少有公共知识生产的价值——这是我对过去评估工作的最大不满。
当然,细细说起来,不足之处还有很多:
首先,我们很少做出清晰鲜明的判断:项目有效或者无效?哪种干预更有效?我们的评估报告大多是这样写的:项目在某些指标方面有正向变化,在另一些方面则没有变化或者有所恶化。我们很少试图去提出某个旗帜鲜明的主张。这与REAP所做的RCT试验评估,对比鲜明。营养餐对改善贫血无影响,家长培训对改善贫血无影响,维生素是改善贫血状况的最佳方法。有清晰判断的评估不仅可能影响政府政策,对实践者也有行动指导意义。每当有重大项目希望验证项目效果时,他们都会去找REAP或者其它质量过硬的采用的RCT评估方法的机构。我们在评估科学性方面落于下风。
其次,我们所重视的评估的过程价值持续性较差。在我们离开后,客户并未使用变化理论作为战略或项目设计方法,他们在做逻辑梳理的时候,是为了配合评估的需要,当时并不是真有梳理逻辑的需求。客户也并未建立与利益相关方沟通和信息收集的习惯,我们没给客户留下一个可以持续运转的能力和机制。客户为评估报告而来,而我们却把价值重点放在评估过程上;或者反过来说,我们认为价值重点在利益相关方沟通以及变化理论的梳理上,但却花了不少时间在评估报告上,模糊了工作焦点。
最后,最糟糕的,绝大多数公益机构买不起评估服务,不仅是RCT的服务,也包括我们及其它第三方的服务。我们真正相信,评估是公益必不可少的一部分,评估能大大改善公益绩效,评估应该为每一家机构所使用。但我们却没有真正努力过,让评估更便宜,更易操作,让评估融入日常工作, 成为一种更具应用性的常规行为。
而这显然应该是我们在评估领域区别于RCT的价值。 把科学评估留给学术机构吧,我们要在应用性方面达到极致。
二、追求极致应用性
评估不是为了评估,而是“以评促进”。这是常用语,挂在口头上的人多,但真正理解和应用的人很少。
让我们来解析一下。评估是为了提高机构/项目的成效。成效是什么呢?服务对象的变化。所谓改进,即要促成服务对象更正向的变化,因此评估必须能够:
帮助机构/项目更好地了解服务对象,包括他们面临的问题以及他们所具备的优势;
快速收集反馈,以改进项目设计或实施过程;
呈现变化,以便验证项目效果。
虽不必像RCT那般科学,应用中的评估也需要满足改进(improve)和验证(prove)两个功能。
了解服务对象、收集反馈、验证效果,这些都是项目人员在工作过程中自然进行的操作,是项目工作的一部分。我们不能等到第三方来了才去了解服务对象,才去收集反馈,那个时候早已为时晚矣。如果这些工作都是评估工作的话,那么评估就理应是项目工作的应有之义,而不是额外的需要支付高额费用的事。
让我们设想一下医生的工作。医生量体温、验血、拍胸片、做CT等等,这些都是评估,目的是为了诊断病人的真问题。好医生绝不会根据病人的说辞就开药方。如果病人住院,医生和护士每天都会做检查,了解药效,调整药方、药量。如果病治好了,医生也一定有所了解,不必等到其他人再来做验证。
让我们设想一下老师的工作。一名好的老师,绝不会将书本的内容不分对象的灌输给学生,他们把更多的精力放在观察和了解学生身上,然后依据学生的状况,针对性的授课,激发学生自主探索知识。另外,每个班级里,总有些特殊的需要照顾的孩子,除了“教书”之外,好的老师还需要发现他们,并开展不少“育人”方面的工作。
医生和老师,都是以“改善和发展”为目标的工作。评估占据了他们工作中相当大一部分时间,而单纯的“活动”(开药方或者讲课)只是他们工作的一部分,甚至是很小的一部分。而同样以“改善和发展”为目标的公益项目,情景应该差不多。
我所想像的区别于RCT的评估,能在实际工作中被经常、反复、不间断应用的评估,大抵也是如此。
三、一次尝试
2014年,我们就开始与桥畔计划团队定期聚会,讨论桥畔计划的评估。在聚会中,关于应用性评估的想法逐渐形成。在一次会议当中,我们提到评估应该同时具备以下功能:
* 加深对需求和问题的理解;
* 呈现项目的成果状态。
基于这个理念,我们于2015年正式开始了一项合作,为桥畔计划开发一个在工作中可以持续应用的评估工具。
桥畔计划是一项针对初创教育公益组织发展的资助计划,它每年在全国范围内甄选合适的教育公益机构,给予最高6万元的非限定资金支持,并针对合作伙伴的具体需要,提供学习机会、合作资源、组织发展等方面的服务。
基金会做资助的难点有三个方面:一是找准自己的目标对象;二是和被资助机构一起找准需要突破的问题、需要改进的地方;三是明确自己可以提供的服务。由于有资金的诱惑,资助工作中常常伴随激励偏差,虽然前来申请资金的机构众多,但实际上其中一部分机构的实际问题,并不能靠资金来解决。而且,即使机构真的需要资金,关于资金到底用在什么地方合适,也容易受随机和偶然因素影响,常常导致判断错误。现在,越来越多基金会,希望提供“资金+X”的支持方案,也就是不仅拨付资金,还提供能力建设。但一方面被资助方可能并没有“能力建设”的需求,但因为希望获得资助而“勉强配合”基金会接受能力建设;另一方面,关于机构真正的问题和需求是什么,常常被资助方不能说清楚,资助的基金会也很难做出准确判断。
如果能有一个评估工具,可以较为系统性地分析申请机构的状况和需求,将十分有利于改善资助的上述难题。—— 桥畔计划需要的就是这样的工具。
我们依据之前与亚洲基金会合作开发的《非营利组织能力评估工具(OCAT)》,几经实验,为初创教育类NGO开发了一个简化版本,包含从机构使命到内部团队到管理系统的7个方面的42个指标。OCAT最大的两个特点,一是沟通,二是整体。资助官员担任协作者,邀请合作机构关键成员参与,大家针对每个指标打分,并充分交换意见。经过评估的过程,一方面大家对机构目前所处的状况和问题进行了充分沟通,另一方面,大家角度不同,各种评价和观点交织在了一起,形成了一个更为完整的事实。一般而言,团队都可以在一天之内,对机构的优势以及亟待提升的地方形成共识。OCAT的过程与结果,帮助合作机构找准了资金重点投入方向,桥畔计划也因此更为清晰地得知该提供哪些非资金支持。OCAT让资助方与被资助方之间真诚且系统的对话成为可能。
感谢有桥畔计划这样的合作伙伴。桥畔计划很快将OCAT真正嵌入到常规工作流程应用起来。机构申请之前会做OCAT,此为前测,而合作一年之后,会再次做OCAT,此为后测。前后对比,可观察机构的变化。虽不能做完全归因,这些也一定程度上是桥畔计划资助成果的呈现。
最重要的是,每次评估之时,我们不希望服务对象只是评估的信息来源,也希望评估能给服务对象带去价值。这样,信息搜集、沟通评价,就并不是为桥畔计划而做,也是为合作机构而做。2016年,桥畔计划发布新年度招募启事时,就把“合作期间2次(初期与末期)组织能力测评协作,共同探讨机构发展所需加强和提升的能力”列为桥畔计划团队提供的服务之一。
类似的方法,“爱佑益+”公益创投项目也在使用。“爱佑益+”针对的是行业里的成熟期的机构,他们机构历史较长,规模较大,组织及战略问题更为复杂。“爱佑益+”使用了四大范畴、10个一级指标、110个细分指标(定量与定性)对机构进行全方位扫描,这些信息都成为了为机构制定战略转型方案以及爱佑团队资金与非资金支持的重要依据。“爱佑益+”团队每月与被资助机构电话或见面沟通,机构的最新变化与进展都会被记录在档案之中。这种高频率的沟通,有助于加强基金会对服务对象的了解,并在必要时提供及时帮助。
四、与RCT的区别
进入文章的这个部分,我还是想用一个案例来继续阐述应用性评估与RCT的不同价值。虽然是个老案例,在我之前的文章和演讲中使用过几次,但对本主题很有说明性。
2006年,尤努斯及其创办的格莱珉银行获得诺贝尔和平奖。2007年,阿西夫·道拉出版《穷人的诚信:第二代格莱珉银行的故事》,这本书里记录了大量的对小额信贷开展的RCT评估。为了验证小额信贷对于减贫的成效,学者们深入孟加拉,用2-3年的时间收集收入和支出数据,评测小额信贷对减贫以及代际减贫的效果。小额信贷的假设是:“穷人不缺技术,不缺方法,他们具备自我改善的能力,只是缺少一个金融机会”,而且小额信贷利息高于银行信贷,甚至颇有“高利贷之嫌”,它到底是不是如所说的那么有效,也只有RCT这样的的科学评估才能给出令各方信服的答案。
我曾在之前的一篇文章中,称RCT为规模化的前奏。当某一种干预,它从产品成型发展进入到大规模推广的时候,它就很有必要对干预效果进行科学验证。一方面,作为项目的发起方,必须客观地判断项目是否有效,如果项目无效而推广,规模推广的越大越是在浪费社会资源;另一方面,当项目推广到广泛的规模时,项目已经突破熟人的范围,要去赢得众多陌生利益相关方的认可,科学的RCT评估更易为各方采信。当然,由于RCT评估费用高昂,一般的项目支付不起,因此也只有在需要大规模推广的时候,开展RCT才具备成本效益。
格莱珉银行对于由外部专家实施的RCT评估并不满足。原因有很多,比如说RCT得出结果很慢,无法提供及时信息作为经营决策的依据;比如说它是针对小额信贷整体效果做出判断,结论要么是支持小额信贷的扶贫效果,要么是否定小额信贷的效果,而对项目内的不同组成部分没有具体改进指导意义;再比如,RCT的评估几乎与员工的日常工作没有关系,专家的评估工作与格莱珉银行的日常工作,好像是发生在两个完全不同的世界。
格莱珉银行希望自己能有一种可以在日常工作中被持续使用的评估,因此他们开发了PPI,全称为progress out of poverty index。在孟加拉,它包含十个指标,内容大致为:
* 借款人及其家庭成员居住在有马口铁皮屋顶,或价值超过25000塔卡(约合1980元)的房子里,家庭成员睡在床上而非地上。
* 借款人饮用自管道井中抽上来的干净水、开水或者用明矾、净水药片或罐壶过滤器净化过的无砷水。
* 借款人家庭超过6岁的孩子都在上小学或者小学毕业 。
* 借款人周还款最低200塔卡。
* 所有家庭成员都是用清洁卫生的厕所。
* 家庭成员有足够的衣服满足日常需要。
* 家庭有其它收入来源,例如蔬菜园子或果树,以满足额外之需。
* 借款人在储蓄账户中维持在年均5000塔卡的余额。
* 借款人全年有能力供应家庭成员一日三餐,家庭没有食品匮乏之虞。
* 在家庭成员生病的情况下,有能力采取迅速行动进行恰当的治疗,并有能力支付医疗费用。
这个贫困测量工具,与学者们的评估方法迥然不同。它异常直观,普通的信贷员就可以直接观察和记录。在工作中,格莱珉银行用它来甄别服务对象,也用它来记录每一个借款人的贫困状况变化。这样,贫困测量就不再是学者的专利,而就与信贷员的日常工作切切实实地联系在了一起。这些数据经过总结和分析,也能有力地用于外部沟通。由于其具体,可感知性强,在呈现小贷成效,获得利益相关方理智和情感双重认同方面,甚至优于抽象的学术研究。
近些年,国际上对小额信贷的批评之声日隆,很重的一项批评即用户上移:小额信贷不是服务真正的穷人,而是去帮助那些农村社区中已有的“强人”,继续加剧了农村的不公。PPI工具如果使用起来,能够帮助信贷员找到真正符合条件的穷人,瞄准自己的服务对象。
五、用户至上的文化
细心的读者,会发现我所使用的案例,有一个共同特点,他们都是对“服务对象”的记录。记录用户信息,可能会成为一种评估工具,我之前撰写过一篇《用户档案》的文章,就是提出这种评估方法设想。依据这些信息,我们可以较为系统地分析服务对象的实际需求,而了解需求是制定干预方案最为关键的动作。
这种评估工具有一个“副产品”,它有助于机构内部形成”用户至上”的文化。它用一定的流程和机制,让同时与服务对象进行定期沟通,而且它采用一种较为系统的方式,让同事去关注较为全面的内容,减少随意性和偶发性,帮助工作团队对服务对象产生更深入的了解。
公益组织,要与外界交换资源与价值。用户至上的文化,作为一种与筹款至上两相制衡的文化,在公益领域再怎么提倡都不为过,它不仅是机构使命之所在,更是机构保留员工乃至筹集资源的关键。而如果这种真正在用的评估,能起到协助建立以及拱卫用户至上的文化的作用,善莫大焉!