描述
开 本: 16开纸 张: 轻型纸包 装: 平装-胶订是否套装: 否国际标准书号ISBN: 9787519431495
公共卫生和健康是民生建设的重要环节,也是经济社会稳定发展的基础,民众迫切关心,政府高度重视。为减轻患者经济负担、改善国民健康水平、维护公共卫生安全,多年来我国政府做出了不懈努力,实施了很多卫生与健康相关的项目,多数项目投入巨大且影响广泛。2000年农业部、*等七部委局联合推广中国“学生饮用奶计划”,以提高中小学生的身体素质并培养他们合理的膳食习惯。2002年开始试点、2006年全面铺开的新型农村合作医疗(以下简称“新农合”)目前已基本覆盖我国农村居民,项目旨在提高农民健康水平、缓解农民因病致贫、因病返贫等。2007年城镇居民基本医疗保险开始试点,逐步覆盖了全体城镇非从业居民。2009年卫生部、全国妇联印发了《农村妇女“两癌”检查项目管理方案》,以加强农村妇女宫颈癌、乳腺癌检查工作。2011年国务院办公厅出台了《关于实施农村义务教育学生营养改善计划的意见》(国办发〔2011〕54号),中央每年拨款160多亿元,以进一步改善农村学生营养状况。当前,政府在项目设计、试点和推广上投入较多,而对项目影响的评估缺乏足够的关注。因此,可能存在有益的项目没有得以推广,而无效的项目仍在持续的情况。项目是否带来了预期的效果?项目产生影响的机理是什么?只有通过项目影响评估,我们才能够回答好这两个问题,进而帮助决策者了解目前资源的利用情况,并判断有限资源的利用是否存在改进空间以及项目是否值得推广。
一、卫生与健康领域为什么需要影响评估1.传统评估方法存在不足在中国,对项目的评估经历了几个主要阶段。初,决策者缺乏对项目评估的概念,决策正确与否很大程度取决于管理者的判断和直觉,具有较大的不确定性;随着社会发展进步,决策者有了项目评估的概念,会采用一些简单的方法考察项目成效,比如看一些关键指标是否达到预期目标、定性分析项目效果;随着管理水平的提升,决策者会运用更科学的方法定量分析项目的结果指标,如绩效评价法、综合指标评价法、层次分析、数据包络分析等。这些方法可以解决描述性问题和规范性问题(也即正在发生什么和应该达到什么效果),但难以评价由于项目实施而对产出结果造成的影响。近年来,国际社会大力倡导对项目进行影响评估,我国也逐渐重视这项工作,不再像以前只看项目产出,而是关注项目真实的影响。目前,项目影响评估在我国还处于起步阶段,一些学者和管理者在运用影响评估方法时缺乏严谨性,如在项目实施前后收集数据,把结果指标的变化全部归为项目的影响。这样所得的评估结果很有可能不完全是项目本身产生的影响,与国际社会认可的影响评估还存在差距。卫生与健康关系到人民生活、社会稳定与经济发展,因此,应科学合理地使用影响评估方法得出关于项目影响的可靠结果,为政策制定提供依据,避免资源配置错误、决策失误所造成的巨大损失。2.影响评估方法具有优势从上述分析可见,当前中国卫生与健康领域常用的评估方法可以解决描述性问题或规范性问题,在项目监管和评价实践中发挥了很大作用,但都难以评估出政策或者项目与产出成果间因果关系的净效应。理论上来说,项目的影响是项目参与者在参与项目和不参与项目的情况下结果指标的差别。而对于项目参与者来说,不参与项目是一种假设情形,现实中并不存在。因此,需要通过一些手段来构造“反事实”开展因果链分析,得出因果关系。因此,为了考察项目是否真正达到了预期效果,需要使用设计严密的影响评估进行定量分析和比较,来考察项目或政策是否发挥了预期的作用,以及在多大程度上发挥了作用。总体来说,在卫生与健康领域应用影响评估方法有以下优势:首先,影响评估突出的优势就是能够明确因果关系,将可完全归因于干预的影响分离出来,反映监测到的效果是否是由于项目或者政策的实施引起的。也就是说,影响评估能告诉决策者一个项目或政策是否真正发挥了作用,保证政策的科学性、有效性。例如,20世纪70年代,印度尼西亚实行了计划生育政策,此后的一段时间,印度尼西亚的生育率显著降低。单从指标上看,计划生育政策似乎非常有效。但通过影响评估发现,计划生育政策对生育率只产生了有限的影响,而同时期推行的女性教育普及计划使得女性收入提高,社会地位发生变化,从而生育机会成本上升,终导致了生育率下降。因此,政府对家庭计划生育方面的投资进行了政策调整,由开始对避孕措施进行补贴转向提高对女性上学就业的补贴,并取得了国际认可的成效。其次,在解决因果问题的基础上,影响评估方法还有以下优势:一是,有助于决策者控制干预的成本与收益,权衡多个项目之间的投入,从而避免资源浪费,将资金投向收益更高的项目,提高资金利用效率。二是,设计合理的影响评估不仅能告诉我们政策或项目是否产生了效果,还能根据过程和中间结果,向我们展示政策或项目产生影响的机制,从而为决策提供更切实的证据。三是,影响评估的结果简明易懂,有利于决策者掌握项目或政策的真实情况。四是,影响评估具有一定的可复制性,能在类似的项目或政策中进行推广。后,值得注意的是,影响评估并不是完全取代现有项目监测、评估的理论和模型。影响评估是考察政策或项目影响必不可少的重要一环,而现有的监测和评估也是影响评估结果很好的补充。实际上,不同形式的评估是相辅相成的。3.影响评估可以满足科学决策的需要2014年,潘基文在联合国可持续发展问题科学咨询委员会首次会议上表示,当今时代人类面临可持续发展的一系列重大问题,迫切需要基于证据进行科学决策。国家和国际层面的决策往往涉及多个主体间的利益调整,卫生与健康领域的决策更是影响广泛。如果缺乏科学合理的影响评估就匆匆尝试或推广项目,很容易诱发矛盾冲突,产生不利影响,终导致政策执行不畅甚至受到抵制。公共资源的有限性要求基于证据的科学决策以提高公共资源的分配和使用效率,促进社会福利的增加。影响评估可以为科学决策提供依据,是国际通行的政府决策的必要环节;影响评估强调用严谨、科学的方法定量评估公共项目的有效性及经济效率。因此,越来越受到发达国家和国际开发机构的重视。比如,通过对1990至2010年间美国政府针对青少年实施的10个教育和就业改善项目进行影响评估,研究者发现其中9个项目没有影响或者影响微弱。一些国际组织(如世界银行)已经在政策制定和项目设计中实施了影响评估,并倡导其他国家开展影响评估,做出科学决策。如亚洲开发银行从2004年起开始引入“发展援助有效性体系”,通过发展援助影响评估提高有限的发展援助资源的使用效率,同时提高借款国公共资源配置决策的科学性。虽然影响评估方法上的重要创新起始于劳动经济学,但近年来也大量应用于卫生与健康领域。在国际上,影响评估方法在卫生与健康领域的应用主要包括以下几个方面:有条件现金发放医疗项目;医疗保险补贴项目;基于学校或社区的健康干预项目;针对艾滋病(病毒)的干预项目;医疗服务的定价和使用。目前,我国卫生与健康领域面临着流行病防控、医疗体系完善、营养水平提升等多方面的问题,影响评估可以帮助决策者分辨有益的项目和无效的项目,还有助于提高资源配置效率。中国作为发展中国家,决策失误的代价可能不仅是资源的浪费,而且可能影响经济发展的步伐,影响评估的重要性更是不言而喻。目前中国正逐步与国际接轨,开始重视卫生与健康领域政策制定的科学性,影响评估的应用将日趋广泛。
二、什么是影响评估影响评估通过一系列互补的方法为基于证据的政策制定提供支持。尽管本教材主要研究定量影响评估方法,我们将把这些方法置于更大的项目背景下展开讨论,包括监测和其他类型的基于结果的评估方法,以明确影响评估和其他评估的区别。1.监测和评估监测是对项目进行持续跟踪的过程,它通过收集到的项目数据来为项目的实施、日常管理及决策提供有用信息。监测往往利用数据管理来跟踪监测项目实际实施情况与预期结果间的差距,横向比较不同项目的实施情况,并分析项目随时间变化的趋势。监测通常追踪项目的投入,活动和产出情况,但偶尔也监测项目的结果,如国家发展目标的实现情况。评估是针对一项正处在计划阶段的、正在进行的或者已经实施完成的项目或政策所进行的周期性、客观性的评价。评估结果用来回答有关项目设计、实施和效果的具体问题。与持续监测不同的是,它们是在离散时间点实施,并且经常寻求项目以外的技术专家的观点。取决于评估想要回答问题的类型,不同评估的设计,方法和成本的区别非常大。2.影响评估解决的问题一般来说,评估可以用来解决三个类型的问题:● 描述性问题。评估旨在明确什么正在发生,并描述其发生的过程、条件、所涉及的组织关系和利益相关者的观点。● 规范性问题。评估比较正在发生的与应该发生的情况。主要针对项目活动进行评价,判断项目预期目标是否达到。规范性问题适用于对投入活动和产出情况的评估。● 因果问题。评估检验结果并试图评估因项目实施而导致的产出结果的变化。影响评估是旨在回答因果问题的一种特殊评估。一般的评估能回答许多类型的问题,但影响评估的开展围绕这样一个特定类型的问题:某个项目(政策)对我们感兴趣的产出结果所产生的影响是什么?这个基本问题包含了重要的因果维度:我们只对项目所产生的影响感兴趣,即由项目直接导致的产出结果的变化。换言之,如果我们不实施这个项目,我们将不会看到这种变化。因而,影响评估试图找到可归因于项目的某种产出结果的变化。关注因果关系是影响评估显著的特点,这同时决定了可以使用的评估方法。为了估算项目所产生的因果效应,我们选中的任何一种方法都必须能够提供对反事实结果的估计,即如果项目参加者没有参加该项目会有怎样的结果。在实践中,影响评估要求评估人员找到合适的对照组来估计项目参与者的反事实结果。3.展望性评估与回顾性评估影响评估可以分为两类:展望性评估与回顾性评估。展望性评估计划产生于项目的设计阶段,并被纳入项目的实施方案。为了开展展望性评估,在实施项目前,我们需要收集关于干预组和对照组的基线数据。回顾性评估则是在项目实施后,通过构造事后干预组和对照组来进行影响评估。一般来说,展望性影响评估更有可能产生可靠的评估结果,原因有三。首先,可以收集到基线数据,并事先确定项目的产出结果指标。基线数据可以在项目实施前提供受益人和对照组信息,这些信息对测量干预前的结果是很重要的。干预组与对照组的基线数据还可以用来确保两组个体在接受干预之前是相似的。基线数据也可以用来评价项目对受益人的“定位”是否有效,即项目是否让预期受益人接受到干预。第二,在界定用来衡量一个项目在计划阶段是否成功的指标时,我们把评估的侧重点放在项目的预期结果上,影响评估以项目的变化理论和结果链为基础。项目评估的设计能够帮助我们阐明项目的目标,因为它要求建立明确的用以测度项目成功与否的指标。决策者应该为评估设置清晰的目标和问题,以保证结果有高度的政策相关性。决策者的全力支持是成功开展一项影响评估的先决条件;决策者只有在确认了评估的合理性,并且确信它对政策制定将起到重要的证据支撑作用时,才会考虑进行项目影响评估。第三,重要的一点,在展望性评估中,干预组和对照组在项目实施前就已确定。正如我们将在后续章节中深入分析的,如果我们在项目的设计阶段就设计了影响评估计划的话,我们有很多种方法可以用来开展有效的影响评估。特别地,在我们有一个展望性评估计划的前提下,几乎任何有着清晰、明确分配规则的项目,都可以为我们提供有效地估算反事实结果的机会。在项目设计阶段,可以考虑使用不同的方法来估算反事实结果。影响评估计划还可以与项目的运行规则以及项目实施和扩展路线进行有机结合。相比之下,在进行回顾性评估时,评估人员获得的信息通常是非常有限的,因此很难准确判断项目是否成功,以及参与者是否真的从中获益。部分原因在于,很多项目只有从项目开始时就结合评估实践,才有可能收集到基线数据,而一旦等到项目开始实施后才考虑进行影响评估(对于收集基线数据而言)往往为时已晚。但如果我们要评估已经实施了的项目,我们只能使用现有数据来开展回顾性评估。一般来说,在这种情况下,可以用来有效地估算反事实结果的方式更加有限。评估依赖于清晰的关于项目收益分配的项目运行规则,同时也依赖于项目实施前后干预组与对照组数据的可获性。因此,回顾性评估的可行性取决于项目背景,我们无法保证这种评估一定可行。即便可行,回顾性评估也经常只能使用半实验方法,这需要更强的假设条件,因而它们所能提供的证据也更具有争议性。
三、影响评估在卫生与健康领域应用现状影响评估方法通常可以分为两类,分别是随机干预试验以及包括倍差法、匹配法、断点回归法、工具变量法在内的准实验评估方法。通过搜索中国知网(CNKI)中文数据库和Science Direct、Pubmed等英文数据库,检索2006~2015年各个影响评估方法在中国卫生与健康领域应用的文献并进行统计。共搜集整理了主要文献121篇,其中随机干预试验26篇,倍差法18篇,匹配法11篇,断点回归法7篇、工具变量法59篇,结果如图1-1和图1-2所示。图1-1列出了2006~2015年按语种统计的影响评估方法对卫生与健康领域项目或者政策进行评估的文献。可以发现这10年中,用工具变量法进行实证研究用以测度项目效果的研究多,其后依次为随机干预试验、倍差法、匹配法和断点回归分析法。图1-2给出了2006年~2015年每年各个影响评估方法在卫生与健康领域的文献数量。可以看到,在2015年前该领域采用影响评估方法进行研究的文献逐年增多,其中,采用工具变量法和随机干预试验的研究在多数年份中占主导地位,使用匹配法和倍差法的文献数在2009年后增长迅速,断点回归分析的相关研究在近年也有较明显的上升趋势。此外,为尽可能减少选择偏误,得出真正的因果关系,许多影响评估方法相关研究开始以多种评估方法联用或者结合代替使用单一方法进行因果关系的判断和测度。这些方法包括匹配法和倍差法结合、工具变量与断点回归分析法结合,倍差法和断点回归分析法结合,以及多次倍差法(比如三倍差)等。在我们搜集的121篇文献中,15篇文章使用了2种及以上影响评估方法进行研究,这些研究几乎均出现于2009年之后,占搜索文献总数的12.4%,其中8份研究采用了匹配法和倍差法结合进行结果估计,3份研究运用了工具变量加断点回归分析法,结合倍差法和断点回归分析法的研究2份,各有1份研究使用随机干预试验加三倍差和包括工具变量法、匹配法和倍差法在内的三种方法的结合运用。多种评估方法联用或者结合丰富了影响评估方法的实践,然而,各个评估方法均有其前提假定和条件或者一些需要慎重考虑的问题,忽略这些假定、条件或者问题会导致研究结论和事实相差甚远甚至大相径庭,多种方法结合使用将使情况更加复杂,所以需要谨慎对待影响评估方法的运用。接下来的章节将针对各个影响评估方法在国内卫生与健康领域的研究的潜在问题进行评述,同时列出多方法结合需要注意的问题。
图1-1 影响评估方法在卫生与健康应用文献统计(按语种)
图1-2 影响评估方法在卫生与健康应用文献统计(按年份)
第二节 影响评估的基本思路
一、影响评估的核心问题上文提到,几乎任何一项影响评估工作都试图回答以下问题,即“我们所要评估的项目或政策对于我们所关心的结果产生了怎样的因果影响?”在回答这一问题时,我们需要清楚地界定什么是我们所指的“项目(所产生)的影响”。事实上,项目的影响可能因人而异,因而,除了清楚地界定何谓“项目的影响”之外,我们还需要清楚地界定“项目的影响”指的是对谁的影响。这些是本章主要讨论的问题。1.反事实与因果推断为方便讨论,我们用一个二值变量P来指代某个我们想要评估的项目(如新药的研制、警力的增加或免费眼镜的发放)和政策(如扶贫和计划生育政策)。P的取值代表了某个人/社区对该项目的参与状态:P=1说明一个人/社区参与了该项目,而P=0说明这个人/社区没有参与该项目。P=0:一个人/社区没有受到干预(也即没有参与该项目/不受政策影响)P=1:一个人/社区受到了干预(也即参加了该项目/受政策影响)同时,我们用变量Y来指代我们关心的某种结果(例如,人的健康状况,社区的犯罪率,在校学生的学习成绩等),这种结果可以潜在地被项目或政策P影响。对于任何一个人/社区而言,Y在理论上存在两种取值,分别对应两种不同的项目参与状态:即(1)这个人/社区在参与项目P状态下的结果Y,Y1=(Y|P=1),和(2)同一个人/社区在不参与项目时状态下的结果Y,Y0=(Y|P=0):Y0=在没有受到干预状态下的Y值Y1=在受到干预状态的Y值理论上,项目P对一个人/社区的结果Y的影响(即该项目带来的结果Y的变化)可以定义为其参与了项目情况下的Y和没有参与项目情况下的Y的差别。换言之,我们定义一个项目P对Y产生的影响如下:Δ=Y1–Y0=(Y|P=1)–(Y|P=0)例如,戴眼镜对某人学习成绩的影响=(某一时点上这一个人戴眼镜状态下的成绩)–(同一个时点上这一个人不戴眼镜状态下的成绩)。这一定义很好地“控制”了其他因素对结果的影响,因为对于同一个人/社区而言,所有其他因素对Y的影响在上述Δ定义式中的差分中相互抵消了。然而,对任何一个人/社区而言,我们永远不可能同时观测到其Y0和Y1(尽管Y0和Y1对任何人/社区而言,在理论上同时存在),此即影响评估的基本问题。特别地,我们只能观测到项目参与者的Y1而不能观察到他们的Y0;而对于项目非参与者而言,我们只能观测到其Y0而非Y1。例如,我们无法直接观察到一个戴眼镜多年的学生在“他/她从来不戴眼镜”时的学习成绩。这一“数据缺失”的问题使得我们上面定义的项目影响(Δ)对任何人而言均不可直接观测。因此,在进行影响评估时,我们需要用统计学方法来估算Δ。与这一“缺失数据”问题密切联系的一个重要的概念是反事实结果。对于项目参与者而言,Y0则不可观测,我们称(Y|P=0)为其反事实结果,也即“如果该参与者没有参与项目产生的结果”。由于反事实结果(Y|P=0)不能被直接观测,我们需要估算它。由于Δ=Y1–Y0,而且Y1对于项目参与者而言可观测,如何估算Δ便转化为如何估算项目参与者的反事实结果。如何估算反事实结果便是任何影响评估工作的核心问题。在影响评估实践中,我们常常用一个与项目参与者在各方面都很类似的对照组的平均结果来估算(Y|P=0)。本书的第二章将介绍不同的用以估算反事实结果的统计方法,以及如何用这些统计方法来估算反事实结果。后,注意到P,Y0,Y1和被观测到的Y之间存在下列数学关系:Y=PY1 (1–P)Y0以上公式便是影响评估常用的分析框架:“潜在结果”框架。这一框架先由统计学家Fisher和经济学家Roy在1951年分别提出来。对于这个框架早的讨论可参考Quandt和Rubin的文章。由于这些早期的讨论,这个框架也往往被经济学界称为Roy模型,其在统计学界被称为因果模型。2.影响评估的重要参数上面提到,对于任何一个人而言,在任何时点上我们只能观察到Y0或者Y1,而不能同时观测到两者,所以我们无法直接观测Δ=Y1-Y0而需要估算它。实际上,我们常常只能估算对某些群体而言Y1-Y0的平均值。另外,由于项目产生的影响可能因人/社区而异,几乎所有的影响评估都集中于估算项目对某个群体的某种平均影响。我们称这些不同的平均影响为我们所要估算的参数。重要且常用的两个参数包括:(1)项目对总体人群的平均影响:E[Y1-Y0]=E[Δ]注:符号E[]是“期望值”(中括号中表达式所指代变量的均值)。这个参数常常被称为“平均项目影响”,通常记为ATE。(2)项目对参与者的平均影响:E[Y1-Y0|P=1]=E[Δ|P=1]这被称为参与者平均项目影响,通常记为ATT。通俗地讲,ATE度量的是这样一种影响,即平均地讲,一个从总体人群中随机抽出来的人将受到的项目的影响,不管这个人是否实际参与了该项目。而ATT度量的则是,平均而言,实际参与了项目的人(P=1)所受到的项目影响。实际上,有时候我们可以进一步估算具有某种特征X(注:X是一个向量,包含一系列可观测的特征,如年龄、性别、教育程度等)的人的ATE和ATT。也即我们可以定义:ATE(X)=E[Y1-Y0|X]=E[Δ|X]ATT(X)=E[Y1-Y0|P=1, X]=E[Δ|P=1, X]注:符号E[Y|X]是“给定X时Y的期望值”,例如E[月收入|教育程度=高中]表示的是教育程度为高中的人的平均月收入。
二、决定是否评估我们不能保证所有的项目都能进行影响评估。影响评估成本可能很高,评估预算的使用也需有策略性。如果想开始一个新的项目或扩展一个原有的项目,或者考虑是否进行一项影响评估,以下一些基本问题将帮助我们做出决定。1.项目风险与潜在收益要问的个问题是,这个项目的风险和潜在收益是什么?这个问题的答案取决于项目预算和受影响的人数。因此,接下来的问题是,这个项目会需要使用大部分可用预算吗?项目会影响大量人群吗?如果项目不能得到预算或只影响少数人,那么它可能并不值得评估。例如,一个通过志愿者为住院病人提供咨询服务的项目,其预算和影响人数也许不足以说服利益相关者来开展影响评估。相比之下,一个终将会影响所有的小学教师的薪酬改革项目可能具有更高的评估价值。2.成本收益/效果分析如果我们能确定项目的风险和潜在收益很高,那么接下来的问题是,是否有证据表明该项目是可行的。特别是,我们是否知道项目会产生多大影响?在情况类似的国家和地区是否有相关的证据?如果没有预期项目的相关证据,我们可能想要进行一个包含影响评估的试点项目。相比之下,如果有在类似的情况下的相关证据,只有在项目能够解决重要和新的政策问题时,才能证明有开展影响评估的必要。为了证明使用技术和财政资源进行了高质量的影响评估,项目评估应该具有:● 创新性:即检测一个新的、有广泛实施前景的干预方法。● 可复制性:即项目涵盖的范围可以扩大或可以应用于其他不同的条件。● 战略相关性:项目是一个旗舰计划;需要大量资源;可以覆盖或者扩展覆盖到大量人群;可以节省大量资金。● 未经检验的:无论在一般条件下,还是在特定项目背景下,项目的有效性都是未知的。● 有影响力的:结果将被用来做出关键的政策决定。
三、影响评估的分析框架1.界定项目与结果变量为了避免产生歧义和误解,实施项目的机构必须清楚地界定:(1)被评估的是“什么项目或政策”?(2)我们所关心的“结果变量”是什么?这两个问题的答案必须在项目涉及的所有利益相关团体间达成一致,否则的话,某些团体可能不认可评估结果。关心项目影响的群体包括项目决策者、项目管理者,以及项目获益者。对于已经开展了的项目(例如,墨西哥的PROGRESA条件现金转移支付项目,阿根廷的供水服务私有化项目,及我国甘肃眼镜干预项目等),个问题的答案显而易见。但是,在以下几种情况下,对于项目的界定并非那么容易:,项目本身可能由于项目管理的原因或者评估目的的变化而发生变化。例如,2004~2005年,哥伦比亚的Gratituidad学费减免项目就在项目实施期间改变了确定学生项目参与资格的方法。这增加了影响评估工作的困难,特别是如何评估由规则改变所产生的影响。第二,一个项目在不同区域可能表现为不同的形式。在不同的项目地区,“项目”的含义不同(因而干预措施也会不同)。那么,不同区域的影响评估工作可能就要采用适合当地项目版本的方法来开展。第三,如果所评估的项目是一个新项目,那么该项目的某些内容有可能在实施之前发生变化。在界定项目之后,必须清楚地界定我们所关心的结果变量。所有设计得好的项目必须明确哪些经济、社会变量是该项目试图改变的。以下几种情况可能会增加选取产出指标的困难性:首先,一个项目可能同时改变很多经济社会指标,但由于时间和财力所限,一般不可能搜集到所有与这些指标相关的数据。其次,对于一个新的项目而言,很多结果变量往往在项目设计阶段已经确定。但如果项目在实施前或者实施期间发生了变化,那么相关的结果变量也会随之变化。再次,有些结果并不是项目预期产出,这些结果有好有坏。后,不同产出指标的实现时间有长有短。例如,有些结果可在非常短的时间内实现(例如,经常洗手的卫生习惯),而有些结果可能在项目实施后相当长的一段时间内才能实现(例如,疟疾感染率的降低)。2.构造“变化理论”当我们完成了对待评估项目和结果变量的界定以后,进行影响评估的人员需要对被评估的项目及其结果变量有清晰的理解。此时,项目影响评估问题具体演变为:“待评估的项目对我们所关心的结果变量1、2、3分别有什么影响?”
图1-3 项目影响评估问题示意图然而,如上所述,项目本身可能改变,因而结果变量可能随之变化。现实中,构造评估问题是一个循环反复的过程,需要经历若干版的修改才能后确定。开始这一过程的一个切入点是构造一个变化理论,即简单的解释我们为什么预期某一个项目会影响我们所关心的结果变量。这个理论非常重要,特别是针对一个全新的、尚未在其他地方开展过的项目而言尤其如此。在理想情况下,需要由项目设计者构造出关于该项目的变化理论的一个简单的概念框架,有时也需要由项目评估者和设计者共同讨论沟通来想出变化理论。变化理论不需要非常复杂,其简单的形式包括描绘一系列的事件:如果这一系列事件按计划发生的话,我们就会看到我们所希望得到的结果。关于变化理论,有几个要点需要特别注意:(1)如果一个项目是设计来改变参与者行为,那么变化理论就至关重要。理想的状况下,应该在项目设计阶段提出变化理论。(2)参考其他类似项目的报告非常有助于获知哪些项目改变了什么。(3)确认能使干预项目产生效果的条件也很重要,因此研究人员需要收集关于这些条件的数据。例如,Kremer和他的合作者曾经用摄像机来监督印度的小学教师,进而来提高他们的出勤率。(4)通过构造变化理论,项目组可以设想出更多“结果链”中的结果变量和估算策略。结果链是指描述一个项目对结果变量产生影响的逻辑模型,接下来将介绍如何使用结果链来阐述一个变化理论。3.描绘结果链构造和描述变化理论的一个很好的办法,是绘制一个直观的项目结果链(即逻辑模型)示意图。结果链示意图一般来说包括以下5个组成部分:(1)投入:用来实施项目的“投入品”或者“资源”。包括:资金、人力资源、设施和设备、技能等。(2)活动:实施项目的活动,也即项目如何使用这些投入和资源。例如,建学校、给儿童免疫、培训教师以及为项目地区制定发展规划和建立合作伙伴关系。项目通过这些活动,将“投入”或“资源”变成“产出”,即项目打算提供的产品或服务。(3)产出:是由项目提供的服务和产品。我们一般将近期或中期能产生的变化称为“产出”。例如,建设了500所学校、培训了1500名护士、增加了20%的大米产量,或制定了一项提高社会保障的计划。(4)结果或短期影响:是活动和产出的结果。反映了项目受益者对项目产出的利用情况,也即项目带来的变化。例如,由于学校质量的提高,儿童可以学得更好;由于水质的提高而减少了疾病的发病率。(5)长远影响:项目带来的长远影响,通常是较为远大的目标。如儿童死亡率的降低、经济增长率的提高等目标。项目是否能取得这些目标常常超出了项目本身能够控制的范围。简言之,一个结果链描述了投入和结果之间的某种可能的因果关系。图1-4展示了一个简化的结果链示意图框架,图1-5是使用一个具体项目做示例而绘制的结果链示意图。
图1-4 结果链示意图框架
在使用结果链描述关于某项目的变化理论时,有以下几个要点需要特别注意:
图1-5 一个具体项目结果链示例
,在相对简单的项目中,产出和结果可能是相同的。例如,一个给贫困家庭提供食物的项目,产出即是我们所关心的结果指标。第二,这些示意图背后有一系列隐含的假设和风险。如果隐含的假设不成立,或者有不可控制的负面因素干扰了项目的实施,项目有可能并不按照计划进行。案例:在甘肃眼镜项目中,1/3的父母拒绝接受项目提供的免费眼镜(而项目假设所有人都会接受免费的眼镜)。第三,当比较不同的项目时,可能需要为每个项目绘制出一个结果链,然后讨论各自的假设和风险,决定哪一个项目有可能成功。4.建立评估假设在绘制出一个清晰的结果链之后,我们则应当建立一个或几个针对项目或政策影响的具体假设,这些假设必须尽可能地具体到能够使用数据和统计分析进行检验,大而笼统的假设会使项目影响评价难以操作。在建立评估假设的时候,需要注意以下几点:(1)必须非常清楚地界定短期与长期的结果,例如,墨西哥的Progresa项目应该能够在短期提高儿童的入学率,在长期提高中学的完成率。(2)必须清楚地界定预期结果实现的时间,例如,是一年内,还是十年后。(3)允许项目对不同的人群产生不同的影响,例如,一个增加女性教师数量的项目对女孩的入学率的影响可能会大于对男孩入学率的影响。5.选择评估指标选择评估指标来度量项目实施的进展和结果变量非常重要,但很多时候我们无法很容易地对结果变量进行度量。“SMART”原则给我们提供了一个如何选择绩效指标的思路,SMART中的五个字母分别代表五个原则的英文单词的首字母,分别是:(1)具体(Specific):指标定义清晰,不易产生歧义。指标应该反映简单易懂的信息,便于信息的提供者和使用者之间的交流。例1:考虑一个发展中国家的计划生育项目。在这个国家,一个家庭往往有两个以上孩子。这个项目建立了新的诊所,并为孕龄妇女提供低价的避孕措施和健康教育。对于这个项目,我们所关心的结果变量是家庭规模的减小。问题:下列哪个指标更为具体?指标1:小规模家庭的增加数。指标2:一孩和二孩家庭的增加数。例2:考虑一个提高农村儿童的健康状况的项目。以下哪个指标更具体?指标1:健康状况有所提高的儿童的数目。指标2:过去四周内生病的儿童的数目。(2)可衡量(Measurable):要保证我们所关心的结果指标可以被度量,同时,有确定的评价基准对其进行衡量和分析。例1:考虑一个目的在于提高农村小学教学设施的项目。以下哪个指标的可度量性更好?指标1:教学设施落后的学校的百分比。指标2:教室漏雨(缺电或没有图书馆)的学校的百分比。例2:考虑一个目的在于提高农村家庭生活水平的项目。以下指标中哪一个可度量性更高?指标1:变得更加富裕的家庭数目。指标2:目标家庭中每月非食品消费的增加。(3)可实现(Achievable):指标及其度量单位必须具有可达性,并且对项目期内的变化敏感。例1:一个项目为贫困家庭怀孕妇女提供免费的常规检查。为了评估这个项目对新生儿健康的影响,以下那个指标具有更高的可实现性?指标1:新生儿中体重过低(<2500g)的百分比。指标2:接受每日补铁营养品的妇女的4~24个月的儿童的比例(注:儿童的铁存量一般可以维持4~6个月)。例2:考虑一个在100所小学为成绩落后学生提供免费课后辅导的干预项目。以下哪个指标更具可实现性?指标1:项目实施一年后,学生的成绩提高了0.2个标准差。指标2:学生考上大学的概率提高了20%。(4)相关性(Relevant):指标与对应的关键评价问题要相关,能够被用于管理和快速分析目的。例1:一个项目为贫困家庭怀孕妇女提供免费的常规检查。为了评估这个项目对新生儿健康的影响,以下哪个指标具有更高的相关性?指标1:新生儿中体重过低(<2500g)的百分比。指标2:新生儿兔唇的百分比。例2:一个项目在一个儿童普遍营养不良的发展中国家提供免费学校午餐。为了评估这个项目,以下哪个指标更具相关性?指标1:给定学生身高和性别时的体重指数。指标2:学生课后参与体育活动的时间(可能由于更好的营养水平而增加)。(5)时限性(Time-bound):具有确定的时间范围。例1:考虑一个为一个发展中国家的贫困农村提供家庭现金转移支付项目。这些家庭的父母可以收到现金,如果他们定期把小孩送到当地的卫生机构进行检查。对于接受现金支付的条件,以下哪个指标更具时限性?指标1:一个家庭的婴儿6个月内至少接受体检4次。指标2:一个家庭的婴儿6个月内至少接受体检4次(是否在1个月、2个月、4个月和6个月大的时候)。例2:上述例子中,在督导现金转移支付项目进展时,哪一个指标更具时限性?指标1:项目实施期的年里,符合资格的家庭是否获得了定期(2个月一次)的现金转移支付?指标2:项目实施期的年里,符合资格的家庭是否获得了现金转移支付?
四、影响评估方法的分类影响评估方法通常可以分为两类,分别是随机干预试验以及包括倍差法、匹配法、断点回归法、工具变量法在内的准实验评估方法。随机干预试验早产生于20世纪40年代的卫生与健康领域,常用于检验包括药物反应、专业疗法在内各种类型医疗干预的有效性,是临床医学试验的黄金准则。目前随机干预试验方法在卫生与健康领域大量运用,该类研究日趋成熟。但影响评估的对象主要是项目或政策,所以在本研究中针对某种药物或者疗法的随机干预试验不纳入分析范围。此外,该方法近年也在包括社会科学在内的其他领域多有运用。随机干预试验的主要优势在于其保证了干预组和对照组统计上的对等性,分离出了项目的干预效果。操作良好的随机干预实验提供的项目效果是可信的。当随机干预实验不可行或者难以实施时,恰当使用准试验评估方法也可对项目做出较为准确的评价。准试验评估方法中较为常见的是工具变量法和倍差法。工具变量法通过加入与项目参与变量(往往是内生的)高度相关但与随机误差项独立的变量重新“构造”一个随机决定的项目参与变量,从而得到反映因果关系的一致估计量,减少估计结果的偏误。该法目前在统计学、计量经济学、流行病学及相关学科广泛运用。在卫生与健康领域中,工具变量法多见于以健康经济为主体的计量经济研究。倍差法是结合项目前后与有无对比的常用影响评估方法,即用项目前后两期或以上的数据,测度项目参与者前后差异与未参与项目者前后差异的差异来衡量项目的影响。与传统的以政策或项目作为解释变量进行回归相比,倍差法使用个体数据进行动态比较,大幅度减少由于选择偏误导致的解释变量与被解释变量之间互为因果等内生性问题,从而避免了存在偏误的结果甚至截然相反的结论。关于卫生和健康主体的研究中,倍差法主要用于检验和评价关乎人们健康和福利的公共政策和项目的实施效果等。相比前两种准试验评估方法,匹配法和断点回归分析运用相对较少,尤其是断点回归分析因其较为苛刻的运用条件更加鲜有使用,然而由于方法的普及,近些年这两种方法的使用开始增加。匹配法,又称倾向得分匹配,常常用于事后的政策、项目或者干预的效果评价。匹配法试图通过减少干预组和对照组因混杂因素导致的结果偏误,减少可观测的选择偏误,从而得到干预的净效应。Rosenbaum和Rubin早提出该法并进行了应用。由于一些项目或政策限定对象的特定特征(如年龄等),因此存在特定特征临界值以上的个体接受干预,反之不接受干预,断点回归分析中,临界值或者断点附近的样本可以构造选择偏误较小的干预组和对照组,通过比较两组样本即可得到局部平均处理效应,从而可以分离出干预的因果效应。断点回归分析法早由Thiltlethwaite & Campbell评估奖学金项目时提出,近年来该法在国内外的使用逐步增加,并开始多见于流行病学研究。
评论
还没有评论。