学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 经济学论文 > 微观经济学论文

克雷普斯关于微观经济的学术成就

来源:经济学动态 作者:王燕;陈茁
发布于:2019-11-25 共22641字

  摘    要: 戴维·克雷普斯是决策论、博弈论以及资产定价理论的重要奠基人之一。在决策论方面,克雷普斯刻画了“灵活偏好”这种动态不一致的偏好形式,并与合作者一起构建了一个关于动态风险决策的理论框架,该框架允许决策者对于“消解不确定性的时间安排”有所偏好。在资产定价方面,克雷普斯及其合作者提出的“证券定价鞅定理”解决了期权定价模型与套利定价理论相结合时出现的一些基础性问题。在博弈论方面,克雷普斯与其合作者给出了“序贯均衡”的概念与“直观标准”的精炼准则,还在不完全信息动态重复博弈的框架下解释了信誉激励与垄断市场中的企业行为。此外,克雷普斯及其合作者关于博弈学习理论和人力资源管理等方面的研究也成为这些领域发展的重要基石。

  关键词: 戴维·克雷普斯; 决策论; 资产定价; 博弈论; 声誉理论;

  Abstract: David Kreps is one of the most important founders of decision theory, game theory and asset pricing theory. In the aspect of decision theory, he characterized “preference for flexibility”, a kind of dynamic inconsistent preference, and constructed a theoretical framework of dynamic risk decision problem, which allows decision makers to have a preference for “temporal resolution of uncertainty”. In the aspect of asset pricing, he put forward “theory of martingale pricing” to solve some basic problems in the combination of option pricing model and arbitrage pricing theory. In the aspect of game theory, he gave the concept of “sequential equilibrium” and the refining criterion of “intutive criterion”, and explained the incentive of reputation and behavior of enterprises in monopoly markets under the framework of dynamic and repeated game with incomplete information. In addition, his researches on the theory of learning in games and human resource management have become a cornerstone for developments in these fields.

  Keyword: David Kreps; Decision Theory; Asset Pricing Theory; Game Theory; Reputation Theory;

  一、克雷普斯简介

  戴维·克雷普斯(David M. Kreps)是一位具有国际声誉的美国着名经济学家,斯坦福大学商学院亚当斯杰出管理学荣休教授。他1950年出生于美国纽约;1972年毕业于达特茅斯学院,并以优异的数学成绩获得该校的最高荣誉奖;1975年取得斯坦福大学工程学院运筹学博士学位,随后执教于斯坦福大学商学院。他先后担任斯坦福大学商学院助理教授、副教授,并于1980年晋升为教授,2000-2009年间担任该院副院长;同时,于1991-2006年间兼任该校经济系教授。

  克雷普斯由于在动态经济理论研究,特别是在动态风险决策模型和非合作博弈理论分析方面所做出的奠基性贡献,先后于1989年被美国经济学联合会授予约翰·贝茨·克拉克奖;1991当选为美国艺术与科学研究院院士;1997年当选为美国国家科学院院士;2010年被授予美国经济学联合会杰出会士。2018年获美国国家科学院授予的卡蒂科学进步奖(Carty Prize for the Advancement of Science)和西北大学授予的欧文·普林·内默斯奖(Erwin Plein Nemmers Prize)。同年,因其研究论文与着作的高被引用率,克雷普斯还入选了科睿唯安“引文桂冠奖”名录。
 

克雷普斯关于微观经济的学术成就
 

  克雷普斯自1977年正式发表第一篇文章以来,现已完成10多本专着与50多篇学术论文。他早期的研究主要聚焦于不确定条件下的决策论与金融市场的资产定价理论;1982年后则主要关注博弈论与博弈学习理论,并将博弈论与建模方法应用到了声誉理论、企业理论以及产业组织理论等中。克雷普斯大部分的研究工作被囊括于其几本颇具影响力的着作中,包括《选择理论讲义》(Kreps, 1988)、《微观经济理论教程》(Kreps, 1990a)、《博弈论和经济模型》(Kreps, 1990b)、《战略性人力资源:总经理的思考框架》(Baron & Kreps, 1999)、《管理者微观经济学》(Kreps, 2004)、《高级微观经济学:选择与竞争性市场》1(Kreps, 2013)等。由于研究内容的基础性和表述的通俗性,克雷普斯几乎所有的书籍都被译为中文并成为国内很多高校研究生和MBA教学的通用教材。特别是《高级微观经济学教程》,内容几乎涵盖了微观经济学20世纪90年代以前的所有研究领域,并首次系统地讲述了非合作博弈论和信息经济学的知识,在国内外广受好评。本文将对克雷普斯重要的学术成就进行梳理。

  二、决策理论研究

  虽然克雷普斯在决策理论(decision theory)方面并不是一位高产的作者,但对该领域所做的贡献却依然是巨大的。第一,他的研究在决策论的框架中说清楚了“灵活偏好”(preference for flexibility)这一偏好模式及其行为层面的深刻含义;第二,他与其合作者提出了一个关于动态风险决策的理论框架,该框架允许决策者对于“消解不确定性的时间安排”(temporal resolution of uncertainty)有所偏好。在以上两个决策理论的分支主题中,克雷普斯及其合作者的工作都是奠基性的。

  (一)菜单选择中的灵活偏好与不能预见的可能性

  经典的跨期决策理论一般会假设决策者的行为满足“动态一致性”(dynamic consistency)。这一假设的含义是:决策者的偏好不随时间变化。这保证了决策者能够为了一个稳定或者说一以贯之的目标而序贯地采取行动,从而现在和未来的不同“自我”之间也就能够形成某种合作关系。若动态一致性假设成立,则决策者对于一个机会集的评价应该唯一地决定于最优的那个选择有多好,而不应单纯追求选择的数量。比如说,假如决策者要在A、B两家餐厅中选择一家就餐,其中A餐厅只有a一种套餐,而B餐厅有a、b两种套餐。如果偏好满足动态一致性,那么只关心最优选择的决策者选择B餐厅而不选择A餐厅的原因就只可能有一个,即他认为b套餐比a套餐更好。如果决策者认为a套餐更好,则在动态一致性假设下,他应当能够预见到自己即使选择了B餐厅也只会选择a套餐。因此,此时选择两个餐厅应当是无差异的。然而,这个结论与其背后的逻辑是不符合直觉的。在现实中,相当一部分人选择去B餐厅就餐纯粹是因为B餐厅选择更多,在点菜时能够有更大的灵活性。在上述案例中,这一思路表现为决策者在选择餐厅时,不清楚未来的自己点菜时究竟更喜欢哪种套餐。如果选择B餐厅,则无论自己未来更喜欢哪个套餐,都能实现最大的满足感;而如果选择A餐厅,一旦发现自己点餐时更喜欢b套餐,则他将依然只能选择a套餐。显然,这一基于灵活偏好的解读比基于动态一致性的解读更符合现实。

  克雷普斯(Kreps, 1979)对决策论的一个重要贡献正是敏锐地认识到了“灵活偏好”这种动态不一致的偏好模式,并用理论进行了刻画。他指出,灵活偏好的基本表现就是希望未来的选择越多越好,这样才能分散由于偏好改变方向的不确定所造成的风险。基于这一逻辑,他提出了一种评估机会集或者“菜单”的效用函数:决策者考虑自己所有可能的未来偏好状态,然后,将机会集的总效用定为每个状态下集合中的元素所能得到的最大效用的加总。例如在上述案例中,A餐厅作为一个机会集的总效用等于自己最喜欢a套餐时a套餐的效用与自己最喜欢b套餐时a套餐的效用之和;而B餐厅作为一个机会集的总效用,等于自己最喜欢a套餐时a套餐的效用与自己最喜欢b套餐时b套餐的效用之和。此时,两个餐厅在第一个状态中的效用相等,而在第二个状态中,B餐厅的效用显然更大,因此,B餐厅将更被偏爱。克雷普斯证明,只要定义在机会集或菜单上的偏好满足灵活偏好,且还能满足一组技术型假设,则能够从偏好中内生地构造出一组这样的状态,使得该偏好与上述效用函数形式完全等价2。

  另一个相关的贡献是,克雷普斯用上述对灵活偏好的解读描述了“不可预见的可能性”(unforeseen contingency)问题。经济学理论用于分析不确定性(即外部事件发生的可能性未知的情况,区别于“风险”)条件下的决策行为的基准模型是萨维奇(Savage, 1954)的主观概率期望效用理论。该理论假设,决策者对外部世界的各种可能状态的可能性有清晰的主观判断,且该判断可以由一个可加的概率测度表示。然而,该理论是建立在“存在一张外生给定的状态清单”假设之上的。也就是说,未来所有的可能性都能够被穷举出来,且其中的每一个都将被决策者充分地考虑。这显然是不符合现实的,克雷普斯(Kreps, 1992)指出,由于想象力有限,未来的许多可能性从本质上是无法被预测的,而许多经济现象,例如新制度经济学家所关注的不完全合同问题以及创新问题,都与这种状态清单的不可预测有关。如果决策者清楚地知道自己不能完全列举全部的可能性,那么灵活偏好就是人们对这种不可预见的偶然性的自然反应。以合同问题为例:如果缔约双方能够穷举所有潜在的可能性,那么合同只需要规定“每种可能性下应该怎么做”即可,而不需要为任何一方留出再做选择的权利。然而,如果存在某些不可预见的偶然性,则缔约方会希望在某些特定的事件发生时有采取进一步行动的能力,即保留某种有条件的灵活性。正式地说,如果S是所有萨维奇理论中客观状态的全体,而一个合同是将每个S中的元素映射到一组行动的映射。克雷普斯证明,当灵活偏好假设成立时,可以构造出另一个由与客观状态不同的“主观状态”组成的集合T,使得萨维奇期望效用理论中的每个客观状态下的效用分量都可以进一步表示为每个主观状态下的效用之和。此时,两个状态空间的积空间S×T可以被视作决策者对于真实外部世界状态的一个估计,而灵活偏好将使决策者有动机在某些S中的元素实现时为自己保留行动的权利。这样一来,就可以模型化不可预见的可能性对于经济行为及其后果的影响了。

  (二)动态风险决策与消解不确定性的时间安排

  动态风险决策是同时涉及风险偏好和时间偏好的选择问题,这类问题在经济学尤其是宏观经济学理论中是十分常见的。经典决策理论通常只是简单地采用期望效用理论来处理这类问题,即在同一个时间截面上,消费者该时期的效用是每种可能性之下效用的概率加权和;整个随机消费计划的效用等于每个时期效用的折现和。但这种在时间和未来可能状态维度上的双重可加性决定了,经典的期望效用理论既不能分析不同消费可能性之间的互补性,也不能分析不同时期消费之间的互补性。

  这一缺陷使得该理论在应用于现实问题时存在两方面的局限:其一,由于双重可加性,存在一个定义在瞬时消费上的伯努利效用函数u,该函数的形状同时决定了决策者的风险态度和跨期消费替代弹性。而现实中,一方面两者之间的相关性其实不大,另一方面不能区分两者使得许多经济学问题无法被解释,经典的“股权溢价之谜”就是一个案例。其二,由于假设了双重可加性,简单的期望效用理论无法体现不确定性消解的时间安排对效用造成的影响。举例来说,考虑以下两个消费方案:方案一是今天抛一枚硬币,如果是正面则明天多消费100元,如果反面则明天按原计划消费;方案二是明天抛一枚硬币,如果是正面则明天多消费100元,如果是反面则明天按原计划消费。两个消费方案的共同点在于:第一,消费的时间一样;第二,消费的不确定性结构有相同的“本质”,都是“明天有50%的可能性多消费100元”。然而,两个消费方案还是有所不同:决策者在两种方案中知道自己明天消费多少的时间不一样,即不确定性消解的时间不一样。但是,在期望效用理论中,两个消费方案的效用必然是完全相等的,这意味着该理论并不能体现两种消费方案的差异。

  克雷普斯(Kreps, 1977a, 1977b)旨在解决这种双重可加性带来的问题,放宽了效用沿时间的可加性。类似于动态博弈理论中使用的设定,克雷普斯假设决策者的伯努利效用函数定义在博弈树3的终节点或者整个博弈的历史上。此时,行动的效用是行动能够创造的所有可能历史的伯努利效用通过概率加权得到的,即保留了可能性之间的可加性。但是当动态消费束被视作博弈的历史时,这一假设意味着效用沿时间未必是可加的。克雷普斯(Kreps,1977a)将这一框架应用在了动态规划中,在新框架中定义了一系列基本概念,包括最优化方程(optimality equation)、上/下收敛效用函数(upper/lower convergent utility function)、不可提升策略(unimprovable strategy)等,并证明了它们的一系列数学性质。由于效用沿时间可能是不可加的,偏好将依赖于决策的历史,这为定义偏好的“平稳性”(stationarity)造成了困难,而这一概念在分析无限期界的动态规划问题中有着极为重要的意义。针对这一问题,克雷普斯(Kreps,1977b)定义了“总结空间”(summary space),该概念把每个历史“总结”为总结空间中的一个元素。在这一概念下,克雷普斯重新定义了平稳性,解决了基于不可加效用函数做动态规划分析的难题。

  克雷普斯及其合作者在该主题下的另一部分研究是关于“随机机会集”的偏好与效用的。当时该领域的共识是,将随机机会集定义为一个在机会集上的彩票,也就是说,它是一张以机会集为奖励的彩票。同时,每个机会集中都包含着一组决策,即定义在奖金上的概率分布,也即传统意义上的彩票。基于双重可加性,一个随机机会集的效用是通过以下几个步骤构造出来的:首先,决策者求解每个机会集中每个决策的期望效用;其次,若动态一致性假设成立,则每个机会集的效用严格等于机会集中包含的决策的最大期望效用;最后,随机机会集的效用等于每个机会集效用的概率加权平均值。克雷普斯等(Kreps & Porteus,1978, 1979)研究指出,在上述三个步骤中,除了能降低分析的技术难度之外,第二个步骤所包含的假设并没有什么必要性:要保留动态一致性,只需要使每个机会集的效用与机会集中包含的决策的最大期望效用之间存在保序(order-preserving)关系即可,而不需要假设两者严格相等。为此,他们提出的动态决策理论放宽了上述假设:在一个有限期界的动态消费计划选择的设定中,克雷普斯等将库普曼斯的递归效用模型(Koopmans, 1960)拓展到了具有风险的情况下。在每一期中,决策者要选择一张彩票,彩票的回报是一个当期消费量和一个未来的预算约束。模型假设该回报的效用是不可加的,且未来机会集的效用不等于未来的最大期望效用,而是未来的最大期望效用的一个单调递增函数。这样一来,模型不仅保留了效用在可能性之间的可加性,同时也解决了上述传统方法的两个应用局限。首先,模型中不仅有定义在奖金上的效用函数u,还有表示机会集的效用与机会集中包含的决策的最大期望效用之间关系的单调变换v。由于增加了一个函数,就可以将风险态度与消费的跨期替代弹性分解开来。Epstein & Zin(1989, 1990)将该框架拓展到了无限期界,并通过这一思路解释了股权溢价之谜。此外,由于单调变换v未必是概率的线性函数,故决策者对于不确定性消解的时间安排将有所偏好。可以证明,当且仅当单调变换v是概率的凸/凹函数时,决策者希望不确定性尽早/尽晚消解;当且仅当v是概率的线性函数时,决策者对不确定性消解的时间安排持无所谓的态度。而期望效用本身就是概率的线性函数,这也就解释了为什么传统理论不能解释不确定性消解的时间安排。

  三、金融市场理论研究

  克雷普斯及其合作者们在金融市场研究方面的贡献可以大致分为两个方面:第一,深入分析了多期证券不存在套利机会的价格体系,并提出“等价鞅测度定理”;第二,从信息和不确定性消解顺序的角度着重探讨了形成阿罗—德布鲁完全市场的必要条件,确切地指出资产数量和信息结构的关系是能否形成完全市场的关键因素之一;第三,详细研究了金融市场中导致投机和套利现象的可能因素,并给出了关于“套利机会”和“套利定价”的一般化定义。

  (一)证券定价鞅定理

  鞅(martingale)是一种用条件数学期望定义的随机运动形式,鞅理论一直是期权定价理论的核心。最初,布莱克和斯科尔斯(Black & Scholes,1973)利用Ito积分等随机过程知识建立了布莱克-斯科尔斯期权定价模型(Black-Scholes option pricing model,简称为BS模型),推导出了欧式和美式期权的定价公式,首次将鞅方法引入到证券定价分析中。随后,默顿(Merton,1973)削弱了BS模型中需要资本市场完全均衡的假设条件,使鞅在证券定价中的应用更具一般性。几年之后,克雷普斯和哈里森(Harrison & Kreps,1979)提出了证券定价鞅定理(theory of martingale pricing),统一了资产均衡定价模型与套利定价原理。正是这几篇文章为鞅理论在期权定价模型中的应用奠定了坚实的基础。

  根据罗斯(Ross,1976)提出的套利定价原理(arbitrage pricing theory),如果证券市场中不存在套利机会,那么衍生证券的价格可以完全由其他长期证券的价格决定。但这里自然产生的一个问题是,如何确定在给定的价格过程中不存在套利机会?克雷普斯和哈里森(Harrison & Kreps,1979)提出的证券定价鞅定理证明,市场不存在套利机会的充分必要条件是只存在唯一的等价鞅测度。所谓等价鞅测度是指一组对可能发生的自然状态的概率赋值,使得在给定的消费形式和此概率赋值下的资产价格服从鞅过程,获得无风险利率。无套利和鞅过程之间的关系使得我们可以用熟悉的风险中性投资者定价方法来计算衍生证券价格:即期价格等于对远期价格的预期加上分红。等价鞅测度定理解决了期权定价模型与套利定价理论相结合时出现的一些基础性问题,大大简便了分析是否存在套利机会、期权定价以及确定最优消费组合策略的过程。

  (二)动态完全市场

  布莱克和斯科尔斯(Black & Scholes,1973)说明,在只有两个证券和接近于无限自然状态的情况下,若交易可以频繁甚至无限地发生且不确定性结构也较理想时,可能会形成和阿罗—德布鲁一样的完全市场。但是,他们并未给出形成完全市场的确切条件。克雷普斯(Kreps,1982)通过更详细的探讨指出,当交易证券数量小于未来的可能状态数量时,能否形成完全市场的关键在于两方面:一是可交易的证券数量N;二是信息结构,主要指不确定性消解的方式和顺序,可以用关键指标K(t,A)和K来说明。K(t,A)表示在t时间点上,状态集A中所包含的下一个时间点上的可能的状态子集数量,而K则被定义为K(t,A)中的最大值。在一个跨期的不确定情形下的交换经济中,K和N的相对大小决定了能否形成一个完全有效市场:如果可交易证券的数量N不小于K,且其收益是线性独立的,那么就可以形成一个完全市场。

  (三)市场投机和套利行为

  在完全信息的阿罗—德布鲁框架中,由于投资者可以不受限制地买卖股票,此时股票价格自然可以根据未来各种可能情况下股息流折现值的加权和来确定,并且初始交易后是否再开放市场也无关紧要。这是因为即便允许后来买卖股票,交易者也不存在投机动机。然而,克雷普斯和哈里森(Kreps & Harrison,1978)指出,当投资者对未来股票价格的期望存在显着差异时,事情就变得不同:后期股票市场的再开放会促使追逐资本收益的投资者进行投机,从而影响当期股票价格。所谓投机现象是指,比起只能获得股息收入的股票来说,投资者愿意以更高的价格去购买那些允许后期交易的股票。具体来说,在风险中性、无限财富、不允许卖空和异质性期望的假设下,存在唯一的4一组符合Radner标准(Radner,1972)的一致价格体系,使得在该组价格体系下任何投资者都不能通过投机获利。其中,Radner标准是指,在当前的价格体系和价格预期下,存在一组在预算约束内的消费和生产计划,使得消费者和厂商在该计划下获得最大效用和利润。从数学上讲,这样的价格体系具有鞅性质,并且这个唯一的均衡价格比任何投资者预期的股票未来股息流的折现值都高。这也说明投资者愿意为可能的投机机会支付额外的溢价。事实上,这个一致的价格也可以从传统的股票内在价格学说中得到一定的解释,即股票价格事实上是市场上的不同的投资者关于股票价值主观信念的反映。

  后来,克雷普斯及其合作者也指出了投机与价格稳定之间的关系。根据同时代一些学者的观点:低买高卖的理性投机行为一定能使价格稳定,只有非理性的投机活动才可能导致价格波动。但是克雷普斯和哈特(Kreps & Hart,1986)认为,投机与价格稳定的关系并非如此简单。可以证明,在一个一般化的模型中,即使投机者是完全竞争的,并且投机者与非投机者关于价格是理性预期的,投机行为依然可能导致价格波动。

  除此之外,克雷普斯(Kreps,1981)还对金融市场中的“套利机会”(arbitrage opportunity)和“套利定价”(pricing by arbitrage)这两个基础概念给出了规范的数学描述与抽象的直觉概括。首先,如克雷普斯所述,虽然关于“套利”的描述常常在不同的具体应用中存在差异,但“套利机会”本质上是指消费者能以零成本在市场上购买到那些可以提高其效用的商品组合。然后克雷普斯证明,在多种(但是有限)商品的经济里,一般情况下,无套利机会是市场均衡的必要条件;但在一些更具体的假设下,无套利机会甚至与市场存在均衡是等价的。所以自然地,套利定价也被定义为那些“消除所有套利机会”的定价原则。最后,克雷普斯进一步指出,在具体的应用中,如何准确定义套利机会和套利定价依赖于消费者偏好的连续程度。

  四、博弈论基础研究

  克雷普斯在博弈基础理论研究方面所做的工作是奠基性的,也是最被人们所熟知的。他与其合作者们提出的“序贯均衡”概念与“直观标准”的精炼准则回答了如何约束非均衡路径上信念的问题,这也是经典非合作博弈理论研究最核心的部分。此外,克雷普斯还关注均衡点的产生和选择过程。他与其合作者构建了一系列概念并提出了诸多命题来论证理论上的均衡能否成为现实中重复试验的实际结果,这后来成为博弈学习理论的重要组成部分。

  (一)完美贝叶斯均衡的精炼——序贯均衡

  作为一类应用极其广泛的博弈,不完全信息动态博弈同时结合了“不完全信息”和“动态”两个要素。因此,无论是用于分析完全信息动态博弈的子博弈完美均衡(subgame-perfect equilibrium),还是用于分析不完全信息静态博弈的贝叶斯纳什均衡(Bayesian Nash equilibrium)都不能被直接移植过来。这是因为,一方面,由于将不完全信息博弈转化为完全但不完美信息博弈所需要的豪尔绍尼转换(Harsanyi,1967)会使得该不完全信息动态博弈只存在一个子博弈,即原博弈本身,于是子博弈完美概念无法适用;另一方面,贝叶斯纳什均衡要求参与人基于其先验信念做决策,从而无法体现动态博弈中决策者的信念随博弈的展开而更新的过程。对此,博弈理论家提出了完美贝叶斯均衡(perfect Bayesian equilibrium)。简单来讲,完美贝叶斯均衡是完全信息动态子博弈完美均衡与不完全信息静态贝叶斯纳什均衡的结合。它将均衡定义为一个信念和一组策略构成的二维向量,此时,完美贝叶斯均衡要求:(1)完美性,即在任意信息集上,当给定即将行动的参与人对已经发生过的事情的信念和其他有关参与人的后续策略时,该参与人要使其此次行动与给定的其他参与人(包括自己)的后续策略在从此信息集开始的“后续博弈”中构成贝叶斯纳什均衡。(2)贝叶斯更新,即在给定的策略下,若某信息集能够以正的概率到达,那么要求在该信息集上的信念是根据贝叶斯法则从均衡策略组合中导出的。然而,对于不完全信息动态博弈来说,完美贝叶斯均衡却不是一个“完美”的解概念。这是因为贝叶斯法则不能规定先验信念是零的事件发生后的信念,导致完美贝叶斯均衡无法约束参与人处在非均衡路径上的信念,继而可能产生类似在完全信息动态博弈中由“无效威胁”所导致的不合理均衡的问题。因此,如何对完美贝叶斯均衡做出再精炼便成为动态博弈理论研究不得不面对的一个重要问题。5

  克雷普斯及其合作者关于博弈论方面最重要的研究成果正是针对上述问题。克雷普斯与威尔逊所发表的《序贯均衡》(Kreps & Wilson,1982)一文提出了不完全信息动态博弈的一个合理解概念——“序贯均衡”(sequential equilibrium)。在不完全信息动态博弈的框架中,均衡首先是一个评估(assessment),即信念和策略组成的二维向量,而序贯均衡则是那些同时满足序贯理性(sequentially rational)和一致性(consistency)原则的评估。其中,序贯理性是指每当参与人需要做出行动时,都会根据当前的信息更新对已有的决策进行优化,并且在做这种优化的时候,清楚未来自己还可能会再次进行决策优化。体现在博弈里即要求在给定的信念和策略组合下,所有参与人在其任意信息集上的行动最大化了他从该信息集开始的剩余博弈中的期望支付,也即没有人能从单方面的偏离均衡路径行为中获益。而一致性则是指存在一组完全混合策略6序列,使得该信念是在这组完全混合策略下,应用贝叶斯法则导出的信念序列的极限。可以看到,从序列极限的角度来定义信念的一致性就好像是要求参与人需通过某种近似的策略来证明那些处在非均衡路径上的信念是合理的,并且这种近似的策略一方面要与均衡策略足够接近,另一方面也要使那些本来处在非均衡路径上的信念能够被到达,从而可以使用贝叶斯法则。与同样解决了该问题的颤抖手完美均衡(Selten,1965)相比,7序贯均衡对均衡的表述简便且更具直觉性。它通过引入完全混合策略序列,使得非均衡路径上的信念设定可以被明确地表示出。这样一来,判断非均衡路径上的信念是否合理就变得十分简单,而这在颤抖手完美均衡里还是非常复杂的过程。事实上,克雷普斯等也指出,序贯均衡与颤抖手完美均衡只存在讨论方法上的差异。序贯均衡本质上可以看作是对颤抖手完美均衡的重新阐述,其不同之处仅仅在于颤抖手完美均衡要求在非均衡路径上的策略必须是非弱被占优的。除此之外,正如克雷普斯等所说,虽然这里定义的信念一致性本身并不是很符合直觉,但它以非常简洁的形式囊括了一系列符合直觉的关于一致性的表达,包括贝叶斯法则和字典序一致性(lexicographic consistency)等。贝叶斯法则要求在均衡路径上策略与信念相容,先验概率等于后验概率;而字典序一致性则要求所有参与人都能在同一个策略组合下形成非均衡路径上的信念,也即非均衡路径上的信念体系需是共同知识。除此之外,序贯均衡定义的信念一致性还要求参与人在非均衡路径上的信念是不相关的(Kreps & Ramey,1987)。

  (二)信号博弈的精炼准则——直观标准

  信号博弈是不完全信息动态博弈中非常重要的一类博弈,自20世纪80年代以来,被广泛应用于各个领域,包括产业组织理论、劳动市场理论和产品担保理论等。在信号博弈中,一方参与人拥有私人信息(比如自己的类型),并且可以通过发送不同的信号来传递或者掩盖其私人信息,另一方参与人则通过观察所接收到的信号对信息发出者的类型做出判断并采取行动。信号博弈的完美贝叶斯均衡对信念的要求较弱,原因在于信息接收方可以在非均衡路径上的某个信号下对对手类型做出不受限制的判断,包括一些虽然满足贝叶斯法则但明显违背“理性参与人”假设的信念设定。正是由于这些不合理的信念,参与人会采取类似不可置信威胁的行动,进而导致不合理均衡结果的产生。对于这个问题,一个自然的想法是,可以将“不选择被占优策略”的想法扩展到非均衡路径上。这是指,如果对于某些类型的参与人存在一些行动劣于另一些行动,而对于其他类型的参与人则不成立,那么,当信息接收者观察到前一些行动时,则不应该以任何正的概率推断选择该行动的参与人属于前一类型参与人。虽然在某些情况下可以通过剔除被占优策略的方法限制一些非均衡路径信息集上的信念,达到缩小均衡数量的目的,但在大多数的博弈中,这种方法却并非十分有效。因此,如何进一步精炼这些均衡便成为信号博弈理论研究的一个重要议题。这个问题的难点在于既不能明确地指出信念的设定在哪里出现了不合理,也不能提炼出一个一般化的准则来限制各种具体情形下的不合理信念。当时的权益之举是,在不同的具体应用中采取不同的具体准则。克雷普斯等(Kreps & Cho,1987)正是从基础理论的高度进行总结和提炼,给出了一个一般化且符合直觉的准则——直观标准(intuitive criterion)。这个精炼准则可以有效地剔除几乎所有信号博弈中的大部分不合理均衡,在斯彭斯(Spence,1973)的劳动市场模型中甚至能得到一个唯一的混合策略均衡。除此之外,还可以证明,在一个一般的信号博弈中,一定存在一个符合直观标准的完美贝叶斯均衡。相较于剔除非占优策略,直观标准对非均衡路径上的信念提出了更强的约束,不仅要求当参与人接收到某类型对手的被占优信号时对该类型对手赋予零主观概率,而且要求当参与人接收到某类型对手的均衡被占优信号时也对该类型对手赋予零主观概率。这样一来就能够通过剔除更多被占优策略使均衡数量大大缩小,进一步优化了完美贝叶斯均衡。

  博弈均衡解的确定及其精炼一直是博弈研究的重要议题,包括克雷普斯自己在内,不少学者都针对这个问题做了大量的研究,并从不同的角度给出了各种回答。但当精炼准则越来越多时,自然存在的一个问题是,对于现实的博弈而言,有些精炼准则是不是过于苛刻了?克雷普斯和弗登博格(Fudenberg & Kreps,1988)曾提出这样一个问题:如果对于某个确定的博弈而言,在一些精炼准则下其均衡是不合理的,但是在和这个博弈非常近似的博弈中,在同样的精炼准则下该均衡却是合理的,那么这一均衡是不是应该被舍弃?这样的均衡被他们定义为近似严格均衡(near strict equilibrium)。正式地讲,近似严格均衡是指对于某个博弈而言,存在一组该博弈的近似博弈序列,使得这个均衡是这组近似博弈序列严格均衡的收敛极限。克雷普斯等指出,这个问题事实上是在探讨存在不确定性时精炼准则是否稳健。可以证明,精炼准则的稳健性与不确定性的类型相关:当不确定性是来自于博弈人不清楚自己的支付并且相信其对手可能拥有更多信息时,所有纯策略纳什均衡都是近似严均衡;当不确定性是来自于参与人的私有信息,且这些信息相关时,不是所有纯策略纳什均衡都是近似严格均衡,但所有颤抖手完美均衡都是近似严格均衡;而当不确定性是由于参与人的私有信息造成,但私有信息是独立分布时,近似严格均衡的特征类似于颤抖手完美均衡。

  (三)博弈学习理论

  非合作博弈理论对均衡的传统解释是,均衡是当博弈结构是共同知识且博弈人完全理性的情况下,参与人通过理性的事前分析和自省达到的结果。这样的解释至少存在三个方面的问题:首先,当博弈存在多个均衡时,如何保证所有参与人的行动都与同一个均衡对应,或者说如何保证所有参与人都预期同一个均衡结果的发生?其次,许多现实的博弈并不满足完全理性和共同知识的假设。最后,在实际的重复博弈试验中观测到,均衡概念虽然能够较好地解释参与人的后期行为,但却很难解释其在博弈开始时的前期行为,纯粹的自省分析不能解释从非均衡向均衡的转变过程。针对上述质疑,博弈学习理论对均衡的概念提出了另一种更让人信服的解释:均衡是有限理性的参与人随着时间的推移寻求最优化这一过程的长期结果。克雷普斯及其合作者从1987年开始就博弈学习理论先后发表了数篇相互关联的论文,依次解决了他们所提出的一系列问题,逐步完善了博弈学习理论的研究框架。接下来所提到的四篇论文基本涵盖了他们在这方面的主要贡献。

  理性预期均衡理论重点分析理性预期均衡的存在性与市场是否有效的问题,但它回避了投资者是否有能力做到利用历史信息去发现未来价值和找到错误定价的相关讨论。在标准的理性预期模型中,均衡的实现要求参与人知道价格与状态之间的关系。也就是说,此时隐含的假设是,参与人不仅可以卓越地洞见经济运行的轨迹,还要有很强的计算事件发生概率的能力,从而可以推知状态系数并形成正确的事前预期。在这样一个非常苛刻的假设下,理性预期均衡的合理性自然受到质疑。对此,克雷普斯等(Kreps & Bray,1987)指出,可以通过构建一个一般化的贝叶斯理性学习过程来放松上述假设,允许参与人不确定价格与状态之间的关系。值得注意的是,相比较于静态模型,贝叶斯理性学习模型是一个非常复杂的动态过程,因为参与人不断的学习过程会不断改变参与人的行为,而参与人不断变化的行为又会不断影响价格与状态之间的关系。因此,是否存在收敛解并不是一个显而易见的问题。但克雷普斯等通过严格的逻辑证明,根据鞅收敛定理,在任何理性学习模型中,参与人的后验信念都会随着时间收敛,并且在一些更严格的平稳性假设下,信念会收敛到真实值,从而形成与传统方法预测的一样的静态理性预期均衡。

  尽管贝叶斯学习过程似乎可以为理性预期均衡提供辩护,但该学习过程本身同样是一个非常不符合经济现实的苛刻假设,因为它要求参与人知道自己对手的完整策略。遗憾的是,在扩展式博弈中,参与人通常并不清楚对手在自己行动不能到达的信息集上如何行动。所以,此时依旧预期纳什均衡结果的发生似乎有些牵强。克雷普斯和弗登博格(Kreps & Fudenberg,1995)指出,虽然在这种情况下,由于参与人可能对非均衡路径上的行动持有错误或者相关信念,因而不能保证博弈一定收敛到纳什均衡,但在一定的条件下,依旧能保证博弈结果收敛到较弱的自确认均衡(self-confirming equilibrium)。正式地说,若σ不是自确认均衡,则在任何满足渐近经验主义(asymptotic empiricism)的信念和满足完全短视的行动规则下,σ都是不稳定的。其中,渐近经验主义是指,当在给定信息集中的行动观察数趋于无穷时,参与人对其对手行动的估计将收敛于该信息集上行动的经验分布;完全短视规则是指,相对于其当前的信念,参与人在任何阶段都会选择最优反应的策略。

  那么在什么情况下,参与人能够获取更多的信息,以形成更完整和正确的信念预期来排除那些非纳什均衡的自确认均衡呢?或者说,为了排除纳什均衡之外的结果,到底关于多少对手行动的信息是“足够的”?克雷普斯和弗登博格(Kreps & Fudenberg,1994)针对这一问题做出了详细的解释:在通常情况下,为了实现纳什均衡结果,参与人需要知道其对手在所有信息集中行动的概率分布。但是,可以想象到,在某些信念集上,对手如何行动对于该参与人如何行动是毫无影响的,因此在这些信息集上,对手行动的信息是无用的。换句话说,为了得到纳什均衡,参与人不必知道其对手的完整策略,只需在相关信念集上持有正确信念即可。此处,相关信念集是指参与人的行动能够决定是否到达的信息集。基于此,克雷普斯等在虚拟行动模型(fictitious play)中假设参与人是有限理性的,他们有时会有意识地做试验以产生足够的非均衡路径上的信息来排除非纳什均衡的策略组合。虚拟行动模型是博弈学习理论中被广泛使用的一类学习模型。在虚拟行动中,参与人仅观测到他们自己博弈的结果,并对行动的历史频率做出最优反应,在这个过程中,他们认为自己正面临对手策略的一个未知但是固定的分布。除此之外,模型对试验发生的次数也做出了限制:试验比率不能下降得太快,但同时也必须消失得足够快以使得参与人的信念满足渐近经验主义。参与人试验的方式可以决定某个收敛结果在长期中是否可以维持下来。克雷普斯等进一步证明,如果信念是强渐近经验主义的,且行为满足有试验次数限制的渐近短视规则,那么任何非纳什均衡的结果都是不稳定的,即参与人无法在某个学习过程和实验方式下形成能收敛到该结果的信念。这个模型也可以解释精炼均衡的逻辑。事实上,精炼均衡就是在约束学习过程和实验方式,可以通过限制学习过程和实验方式来实现均衡的精炼。

  但遗憾的是,上述学习和试验过程无法收敛到混合策略均衡。克雷普斯和弗登博格在其所发表的《混合策略均衡的学习》(Fudenberg & Kreps,1993)一文中,首先对传统虚拟行动中收敛的概念做出了修正。他们指出,对于混合策略而言,经验边际分布收敛(empirical marginal distributions convergence)并不是一个恰当的选择,因为它只要求单个参与人行动的边际分布收敛,从而允许行动的联合分布存在相关性。为此,他们提出了一个更强的收敛概念——预期行动收敛(convergence of intended behavior)。称之为更强的收敛概念是因为可以证明,当预期行动收敛时,行动组合的实际联合经验分布几乎必然收敛于预期行动的边际分布之积。接着,当把收敛定义为预期行动的收敛后,遵循确定性循环的行动就不再收敛。此时,行动收敛于混合均衡的唯一方式是参与人的行动被随机化,从而使得他在每个阶段的行动分布是混合的。根据豪尔绍尼纯化理论(purification theorem)(Harsanyi,1973),定义在行动上的混合分布可以解释为,由于无法观察到支付的确切值,支付的扰动便使得参与人有时偏好某一行动,有时偏好另一行动。鉴于此,克雷普斯等将随机性引入到虚拟行动模型中,构建了类虚拟行动模型。传统的虚拟行动过程是确定的,参与人在每个阶段中都采取纯策略,但在类虚拟行动模型中,若双方参与人认为其对手选择各个策略的概率等于该策略在过去历史中被选择的频率,则允许参与人在每个阶段做出随机选择。这样一来,参与人的行动就可以收敛于混合分布,进而为混合策略均衡的发生提供一个合理的解释。

  五、博弈论应用研究

  克雷普斯在博弈论方面的瞩目成就一方面在于对上述基础理论的构建与分析,另一方面则在于运用不完全信息动态博弈的方法为诸多领域的经济学现象提供了直观的解释。这其中包括个体声誉激励、企业行为与企业文化以及不完全市场中的企业决策等。这些解释后来成为声誉理论、现代企业理论与新产业组织理论研究的重要基石。

  (一)声誉模型与企业理论

  常常可以观察到,在现实的经济活动中,个人或者组织愿意付出一定的成本去建立和维持声誉。维持声誉的激励是声誉理论探讨的最基本问题,而克雷普斯是最早运用博弈模型解释声誉激励的学者之一。

  对于有限次的囚徒困境重复博弈而言,唯一的子博弈完美均衡是参与人在每一轮阶段博弈中都采取背叛的策略。这是因为,根据逆向归纳法,在最后一轮博弈中,参与人显然没有动机合作,那么理性的参与人由于知道在最后一轮博弈中不会合作,所以在倒数第二轮博弈中也就没有合作的动机。以此类推,参与人在所有阶段博弈里都不会选择合作。然而,阿克斯罗德(Axelrod,1981)的实验结果却表明,在有限的囚徒困境重复博弈中,合作经常发生,尤其是在刚开始几轮的阶段博弈中。尽管根据无名氏定理(folk theorem),合作可以发生在无限重复囚徒困境博弈中,但如何解释有限重复博弈中的合作现象却并非易事。

  对此,克雷普斯及其合作者(Kreps,Milgrom,Roberts & Wilson,1982)从不完全信息的角度用声誉模型给出了答案。假设在有限的囚徒重复博弈中,参与人的私人信息是自己可以选择的策略。一方参与人(比如甲方)在P的概率下只能选择以牙还牙的策略(tit-for-tat),在1-P的概率下可以选择任何策略。此处以牙还牙的策略是指甲方在第一阶段一定选择合作,但从第二阶段开始,甲方的选择与乙方上一阶段博弈中的选择相同。可以证明,对于任何一个给定的概率P,只要重复博弈的次数足够多(这个次数是P的函数),合作就会发生。这是因为,甲方清楚只要自己没有选择以牙还牙的策略,那么“甲方可以选择任何策略”就成为共同知识,此时博弈就转变成了完全信息下的重复博弈,从而失去了获得长期合作收益的可能性。基于此,一个理性的甲方一定会选择以牙还牙的策略,尽管在选择合作时存在被对方背叛的风险。当甲方选择以牙还牙策略时,除了最后几轮博弈,乙方的最优反应也应当是合作,因为理性的乙方清楚如果博弈次数足够多,未来合作的收益将超过短期背叛甲方的收益。综上,在博弈的开始,每一个理性的参与人都会树立一个合作形象,即使其实际上并不属于合作型,只有当重复博弈快结束时,由于合作的未来收益小于短期背叛对手的收益,参与人才会一次性把自己建立的声誉消耗尽,选择背叛。换句话说,信誉的激励产生于理性的参与人在衡量了不计声誉的短期支付与有成本的声誉的长期回报后,决定在前期选择一些在阶段博弈中看起来非理性的行动(比如合作),以达到长期支付最大化的目的。

  作为理解社会长期互动行为的有力工具,克雷普斯等所提出的声誉模型具有重要的现实应用意义,使得经济研究者们可以在有限重复博弈的框架下清晰地解释信任和承诺如何在交易中成为一种可靠的现象。正是在克雷普斯等的声誉模型框架下,巴罗(Barro,1986)等证明了,当公众关于政府偏好的信息不完全时,政府出于自身信誉的考虑,可能会选择不制造通货膨胀的货币政策。

  除了个体声誉理论外,克雷普斯也用声誉机制探讨了企业这一经济组织及企业文化的概念(Kreps,1990c)。这部分的研究既是关于组织声誉理论的研究,也是现代企业理论的核心内容。克雷普斯第一次提出“企业声誉”的概念,他认为,企业可以看作是在重复博弈中的声誉载体,企业理论需要探讨的是企业如何建立声誉并把声誉转为可交换的资产。并且,在认识企业和解释企业战略时,要充分认识到企业作为一个有机组织的能动性,而非一个被外生设定好的生产可能性集合。现实中的交易往往受限于不完全合同问题,即在绝大多数的交易中,通常会发生一些交易合同没有规定的情况8。由于没有事先约定,这些情况发生时,参与人如果不能及时调整,则损失会巨大。现实中的交易之所以频繁发生,是因为交易双方相信在无法预料的情况发生时,交易会得到合理而有效的调整,这种信任从某个角度上来说是盲目的。克雷普斯指出,与市场交易相比,在企业内部具有层级制度的交易中,当发生未预料到的情况时,企业具有更多的权威去引导调整。而员工之所以愿意赋予企业这种权威,即之前所谓的盲目的信任,正是源于这种信誉机制的存在。其内在的逻辑是:由于信誉机制的存在,员工相信企业在未预料到的情况发生时,能做出合理而有效的调整。事实上,企业出于声誉和长期利益的考虑也确实做到了这一点。克雷普斯的声誉理论论证了企业的权威特征,对认识企业效率、企业战略和企业本质提供了一个全新的视角,使得当时企业理论的发展取得了重要的突破。

  (二)产业组织理论

  20世纪70年代以来,博弈论与信息经济学的兴起为传统产业组织理论注入了新的活力,新产业组织理论逐渐发展起来。从研究范式上来讲,由于博弈论的成功应用,比起传统产业组织理论,新产业组织理论开始在双向、动态的研究框架下从重视市场结构研究转向重视市场行为研究,并引入不完全信息的假设。克雷普斯正是最早将不完全信息博弈引入产业组织理论,用以解释企业决策在寡头垄断市场中如何相互作用的学者之一。

  在泽尔腾(Selten,1978)提出的重复连锁店博弈中,当新进入者选择进入时,一个理性的在位者在任何一个阶段博弈中都不应该反抗。原因与上述提到的囚徒困境重复博弈类似:由于在最后的阶段博弈里,当进入者进入时,在位者显然应该选择默许,那么在倒数第二个阶段,当进入者选择进入时,理性的在位者也应该选择默许。这是因为既然在下一阶段的博弈中(即最后一阶段),潜在进入者不会遭到抵抗已经是共同知识,那么在位者在此阶段中的抵抗就完全失去了威慑作用,不会对潜在进入者的未来行动产生任何影响。以此类推,在任意有限的阶段内,在位者都会选择默许。但这样的理论推导却无法解释现实的寡头市场中(尤其是在多时期的博弈中)时常发生于在位者和进入者之间的激烈价格战,这便是着名的连锁店悖论(the chain-store paradox)。对此,克雷普斯和威尔逊(Kreps & Wilson,1999)从信誉机制的角度给出了解释。信誉机制里最关键的假设是,在位者有可能是个强垄断者,并且潜在进入者在行动前不能确定在位者的真正类型。和理性的垄断者不同,对于强垄断者来说,不计代价的抵抗绝对比默许更使他获得满足。此时,由于信息不对称,理性的进入者知道抵抗不再是一个无效威胁,因此在行动时会充分考虑在位者的类型即在位者的声誉。而理性的垄断者,即使不是真的强垄断者,也会出于维护强垄断者声誉的需要通过几次抵抗把自己伪装成强垄断者。于是,无论对于强垄断者还是理性垄断者,都存在选择抵抗的激励。

  克雷普斯与弗登博格(Fudenberg & Kreps,1987)后来在上述模型的基础上探讨了更复杂的情况:垄断市场中依旧存在一个在位者,但此时潜在进入者是同时进入市场,而非依次进入市场。通过建立模型可以证明,在满足一些条件的情况下,随着进入者人数的增多,在位者选择抵抗将成为占优策略。

  古诺和伯川德模型是研究寡头企业行为最基本的模型。在古诺模型中,寡头生产商的决策变量是产量。它们首先同时且独立地决定各自的生产计划,之后市场中的虚拟拍卖商将根据双方的生产计划确定一个均衡产品价格,使得在该价格下,总需求等于两生产商的产量之和,从而实现产品市场出清的目标。但在伯川德模型中,决策变量不再是产量,而是生产商同时且独立确定的产品价格。需求首先被分配给低价格的生产商,未被满足的需求才会流向价格第二低的生产者。两个模型对市场的预测是完全相反的:古诺模型预测市场价格高于完全竞争市场,因此寡头垄断导致福利损失;而伯川德模型则预测市场价格等于完全竞争市场,因此寡头垄断是有效率的。那么现实的寡头市场究竟符合哪种博弈模式?当时学界对此的争论是,由于伯川德模型的决策变量是价格,而实际观测到的寡头市场中也采取价格竞争的方式,于是从契合经济现实的角度评价,伯川德模型似乎更具合理性。但是,克雷普斯等(Kreps & Scheinkman,1983)认为事实并非如此,虽然表面上看导致不同市场结果的原因在于这两个寡头模型的决策变量不同,也即价格被决定的方式不同(古诺模型中价格由拍卖商决定,而伯川德模型则是价格完全竞争),但实际上,古诺模型与伯川德模型之所以对市场的预测不同,关键在于生产发生的时间不同。古诺模型中生产在需求决定之前,而伯川德模型则恰好相反,生产在需求决定之后。为了说明这一点,他们构建了一个两阶段博弈:在第一阶段,与古诺模型相同,生产商首先同时且独立地确定各自的产量并且立即生产;在第二阶段,它们进行像伯川德模型一样的完全价格竞争,并且此时需求也像伯川德模型那样从低到高分配。只不过,与伯川德模型不同的是,由于此时产量已经在第一阶段被确定,因此生产商最多只能满足和第一阶段产量一样多的需求。克雷普斯等证明,在这样的两阶段模型中,即使企业的决策变量是价格,最终博弈的均衡结果也不会是伯川德均衡,令人吃惊的是,反而是古诺均衡。甚至,在一些特定的系数设定下,古诺均衡是唯一的均衡结果。由此说明生产发生的时间才是导致古诺和伯川德模型不同的真正因素。克雷普斯等强调,除了决策变量本身,决策的时机和信息接收对于寡头市场的均衡同样重要,抽象地争论古诺或伯川德模型哪个更正确是没有意义的。寡头市场如何博弈是一个经验性的问题,只能通过观察竞争互动发生的环境细节来解决。

  六、简评

  克雷普斯是他那个时代最重要的博弈论专家之一,也是20世纪七八十年代将博弈论融入主流经济学的领军人物之一。他在博弈论、决策理论和金融方面的工作深刻地影响了经济研究的方向,并为许多现代研究提供了技术基础和灵感。克雷普斯与其合作者提出的“序贯均衡”强调了非均衡路径上的信念对决定合理均衡结果的重要性;所构建的“直观标准”精炼准则有效地减少了信号博弈中不合理均衡结果的数量;在博弈学习理论的研究中,重新引入并解释了虚拟行动的经典过程,预测了自确认均衡的概念,并将随机性引入虚拟行动过程中;在不完全信息动态重复博弈的框架下解释信誉激励和市场垄断行为等。正是因为这些在博弈论方面所做出的突出贡献,克雷普斯享有“博弈论四君子”9之誉。

  但除此之外,克雷普斯关于决策论与资产定价方面的研究也颇有价值。在决策论中,他的贡献主要有两点:一是提供了“灵活偏好”这种行为现象的公理描述,例如避免诱惑的偏好;二是克服了用经典的期望效用理论处理动态风险决策问题时,双重可加性所导致的缺陷。在克雷普斯及其合作者所提出新概念与理论框架下,决策者可以对不确定性消解的时间安排有所偏好。另外,在对资产定价理论的研究上,他与哈里森一起提出了具有里程碑意义的“证券定价鞅定理”。一方面,该定理可以将判断市场是否完全有效的过程转化为检验是否存在唯一的鞅等价测度,前者的复杂程度要远远大于后者;另一方面,当市场完全有效时,假设的概率度量也简化了期权定价与最优消费投资组合策略的确定。

  克雷普斯不仅致力于博弈基础理论本身的研究,而且娴熟地使用博弈的思想解释了许多其他研究领域的重要问题并得出奠基性的结论。可以说,他通过博弈论对现代经济理论的发展做出了杰出的贡献。总结来看,克雷普斯的研究有以下两个特点。第一,他非常注重将自己提出的新概念或新理论与文献中可能相关的已有概念或理论进行本质上的比较分析。这体现在,他在多篇文章中都运用了大量篇幅来探讨所研究领域中的相近与相关概念。其目的是尽量避免方法上的另起炉灶和意义上的重复,同时试图通过梳理不同理论之间的内在联系与共同根源来构建一个统一的知识框架体系。这种探究本质的精神和严谨的学术态度是一个基础理论研究者所表现出的让人钦佩的素质和能力。第二,他善于从具体的例子和问题中导出目标问题,并对答案给出直觉性的解释。这一点尤其体现在他的着作《微观经济理论教程》中,该教材引用了大量的范例分析,并随时向读者提出引导性的问题。正如加德纳(Gardener,1991)对克雷普斯的评价所述,这样的行文风格使得“阅读克雷普斯的文章和着作时,犹如坐在他的课堂一样”。

  参考文献

  詹姆斯·巴伦,戴维·克雷普斯,2005:《战略性人力资源:总经理的思考框架》,清华大学出版社。
  戴维·克雷普斯,2013:《高级微观经济学:选择与竞争性市场》,中国人民大学出版社。
  []戴维·克雷普斯,2006:《管理者微观经济学》,中国人民大学出版社。
  []戴维·克雷普斯,2006:《博弈论与经济模型》,商务印书馆。
  []戴维·克雷普斯,2016:《高级微观经济学教程》,格致出版社。
  []Arrow,K.J.(1964),“The role of securities in the optimal allocation of risk-bearing”,Review of Economic Studies 31(2):91-96.
  []Axelrod,R.(1981),“The emergence of corporation among egoist”,American Political Science Review 75(2):306-318.
  []Baron,J.& D.Kreps(1999),Strategic Human Resources:Framework for General Managers,J.Wiley & Sons.
  []Black,F.& M.Scholes(1973),“The pricing of options and corporate liabilities”,Journal of Political Economy 81(3):637-654.
  []Barro,R.J.(1986),“Reputation in a model of monetary policy with incomplete information”,Journal of Monetary Economics 17(1):3-20.
  []Bray,M.& D.Kreps(1987),“Rational learning and rational expectations”,in:G.Feiwel(ed),Arrow and the Ascent of Modern Economic Theory,Palgrave Macmillan UK.
  []Cho,I.-K.& D.Kreps(1987),“Signaling games and stable equilibria”,Quarterly Journal of Economics 102(2):179-221.
  []Dekel,E.,B.Lipman & A.Rustichini(2001),“Representing preferences with a unique subjective state space”,Econometrica 69(4):891-934.
  []Epstein,L.& S.Zin(1989),“Substitution,risk aversion,and the temporal behavior of consumption and asset returns:A theoretical framework”,Econometrica 57(4):937-969.
  []Epstein,L.& S.Zin(1990),“‘First-order’ risk aversion and the equity premium puzzle”,Journal of Monetary Economics 26(3):387-407.
  []Fudenberg,D.& D.Kreps(1987),“Reputation in the simultaneous play of multiple opponents”,Review of Economic Studies 54(4):541-568.
  []Fudenberg,D.& D.Kreps(1993),“Learning mixed equilibria”,Games and Economic Behavior 5(3):320-367.
  []Fudenberg,D.& D.Kreps(1994),“Learning in extensive-form games II:Experimentation and Nash equilibrium”,mimeo.
  []Fudenberg,D.& D.Kreps(1995),“Learning in extensive-form games I:Self-confirming equilibria”,Games and Economic Behavior 8(1):20-55.
  []Fudenberg,D.,D.Kreps & D.Levine(1988),“On the robustness of equilibrium refinements”,Journal of Economic Theory 44(2):354-380.
  []Gardner,R.(1991),“A Course in Microeconomic Theory by David M.Kreps”,Journal of Economic Education 22(4):391-393.
  []Harsanyi,J.(1967),“Games with incomplete information played by Bayesian players parts Ⅰ,Ⅱand Ⅲ”,Management Science 14(5):159-182,320-334,486-502.
  []Harsanyi J.(1973),“Games with randomly disturbed payoffs:A new rationale for mixed-strategy equilibrium points”,International Journal of Game Theory 2(1):1-23.
  []Hart,O.& D.Kreps(1986),“Price destabilizing speculation”,Journal of Political Economy 94(5):927-952.
  []Harrison,M.& D.Kreps(1978),“Speculative investor behavior in a stock market with heterogeneous expectations”,Quarterly Journal of Economics 92(2):323-336.
  []Harrison,M.& D.Kreps(1979),“Martingales and arbitrage in multiperiod securities markets”,Journal of Economic Theory 20(3):381-408.
  []Kohlberg,E.& J.Mertens(1986),“On the strategic stability of equilibria”,Econometrica 54(5):1003-1038.
  []Koopmans,T.(1960),“Stationary ordinal utility and impatience”,Econometrica 28(2):287-309.
  []Kreps,D.(1977a),“Decision problems with expected utility criteria I:Upper and lower convergent utility”,Mathematics of Operations Research 2(1):45-53.
  []Kreps,D.(1977b),“Decision problems with expected utility criteria II:Stationarity”,Mathematics of Operations Research 2(3):266-274.
  []Kreps,D.(1979),“A representation theorem for ‘preference for flexibility’”,Econometrica 47(3):565-577.
  []Kreps,D.(1981),“Arbitrage and equilibrium in economies with infinitely many commodities”,Journal of Mathematical Economics 8(1):15-35.
  []Kreps,D.(1982),“Multiperiod securities and the efficient allocation of risk:A comment on the Black-Scholes option pricing model”,in:J.J.McCall(ed),The Economics of Information and Uncertainty,The University of Chicago Press
  []Kreps,D.(1988),Notes on the Theory of Choice,Westview Press.
  []Kreps,D.(1990a),A Course in Microeconomic Theory,Princeton University Press.
  []Kreps,D.(1990b),Game Theory and Economic Modelling,Oxford University Press.
  []Kreps,D.(1990c),“Corporate culture and economic theory” in:Alt & Shepsle(eds),Perspectives on Positive Political Economy,Cambridge University Press.
  []Kreps,D.(1992),“Static choice in the presence of unforeseen contingencies”,in:Economic Analysis of Markets and Games:Essays in Honor of Frank Hahn,MIT Press.
  []Kreps,D.(2004),Microeconomics for Managers,W.W.Norton.
  []Kreps,D.(2013),Microeconomics Foundations:Choice and Competitive Markets,Princeton University Press.
  []Kreps,D.& E.Porteus(1978),“Temporal resolution of uncertainty and dynamic choice theory”,Econometrica 46(1):185-200.
  []Kreps,D.& E.Porteus(1979),“Dynamic choice theory and dynamic programming”,Econometrica 47(1):91-100.
  []Kreps,D.& G.Ramey(1987),“Structural consistency,consistency,and sequential rationality”,Econometrica 55(6):1331-1348.
  []Kreps,D.& J.Scheinkman(1983),“Quantity pre-ommitment and Bertrand competition yield Cournot outcomes”,Bell Journal of Economics 14(2):326-337.
  []Kreps,D.& R.Wilson(1982),“Sequential equilibria”,Econometrica 50(4):863-894.
  []Kreps,D.& R.Wilson(1999),“Reputation and imperfect information”,Levines Working Paper Archive 27(2):253-279.
  []Kreps,D.,P.Milgrom,J.Robert & R.Wilson(1982),“Rational cooperation in the finitely repeated prisoners' dilemma”,Journal of Economic Theory 27(2):245-252.
  []Merton,R.C.(1973),“Theory of rational option pricing”,Bell Journal of Economics & Management Science 4(1):141-183.
  []Radner,R.(1972),“Existence of equilibrium of plans,prices,and price expectations in a sequence of markets”,Econometrica 40(2):289-303.
  []Ross,S.A.(1976),“The arbitrage theory of capital asset pricing”,Journal of Economic Theory 13(3):341-360.
  []Savage,L.J.(1954),The Foundations of Statistics,Wiley.
  []Selten,R.(1965),“Spieltheoretische behandlung eines oligopolmodells mit nachfragetragheit”,Zeitschrift für die gesamte Staatswissenschaft 121:301-324.
  Spence M.(1973),“Job market signaling”,Quarterly Journal of Economic 87(3):355-374.
  []Selten,R.(1978),“The chain-store paradox”,Theory and Decision 9(4):127-159.

  注释

  1《高级微观经济学:选择与竞争性市场》是一个三部曲的第一部,另外两部还在写作中。
  2不过,克雷普斯(Kreps,1979)并没有证明这样一组状态空间是唯一的,也就是说,可能存在两组不同的状态,使得决策者的效用函数都满足上述描述灵活偏好的效用函数形式。不过,Dekel,Lipman & Rustichini (2001)证明,如果每个状态下的效用函数都是期望效用函数,则这样的构造是唯一的。
  3动态决策可以被视作自己和自己之间的一人博弈。
  4由于价格的零次齐次性质,严格来讲,此处所谓“唯一的一组一致价格体系”是指那组最小的一致的价格体系。
  5对于该问题,泽尔腾(Selten,1965)提出了颤抖手完美均衡(trembling hand perfect equilibrium)。简单来讲,颤抖手完美均衡通过假设参与人在他的每一个信息集上行动时,都可能会以较小的概率错误地选择一些非占优策略来使得博弈树的每一部分都可以被到达,以此来排除非均衡路径上的不合理行动。事实上,颤抖手均衡已经开始含蓄地讨论非均衡上信念更新的问题,但由于无法明确地表示出非均衡路径上的信念,讨论方法上显得局限而复杂。
  6此处所谓完全混合策略是指为所有纯策略赋予严格大于零的概率的混合策略。
  7颤抖手完美均衡与序贯均衡一样,同时满足序贯理性和信念一致性的要求。
  8即克雷普斯在决策论的研究中讨论过的“不可预见的可能性”。
  9学界一般把罗伯特·奥曼(Robert J.Aumann)、肯·宾莫尔(Ken Binmore)、戴维·克雷普斯(David M.Kreps)与阿里尔·鲁宾斯坦(Ariel Rubinstein)称为“博弈论四君子”。

作者单位:山东大学经济研究院
原文出处:王燕,陈茁.戴维·克雷普斯对微观经济理论的贡献[J].经济学动态,2019(10):147-160.
相关标签:
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站