日报标题:数学家眼里,「走一步看一步」的生活态度是一场博弈
我想先问一个问题:如果把它刻画成一个博弈,那么博弈对手是谁?
肯定会有人认为,我的博弈对手就是全社会或者我周边的环境。那么我想问的是:到底什么样的个体才能把“全社会”当成博弈对手来看待?
举个栗子,大家学产业组织时学过一种市场结构,其中有一个垄断者享有定价权,另外有一堆产能有限的小儿子企业根据垄断者的决策来做决策。在这种情形下,垄断者是可以去计算那一票小儿子企业加总的“反应函数”,从而制定自己的策略的。
对于个人来说,很少会发生这样的情况。在绝大部分情况下,把社会当成博弈对手去考虑,还不如把社会当成状态变量来考虑。然后这么转一圈又回到动态规划的思路上去了。
我的另一个问题是:“走一步看一步”足够精确吗?
用动态规划的眼光看,我觉得“走一步看一步”是个非常模糊的说法,什么都可以往里装。至少有两种可能:
1)行为方式(Policy function)不变,根据环境(state var)的变化,调整自己的行动(control var)
2)环境改变后,改变行为方式(policy function)
第一种解释,和 policy function 本身的逻辑一致:一个从一而终(具有 dynamic consistent preference)的人,根据环境的变化,走一步看一步。
第二种解释,代表人的目标函数变了(或具有 dynamic inconsistent preference)。所以最后解出来的 policy function 也变了。例如我原来的目标是钱挣得越多越好,于是我在所有工作邀约里选了一个咨询公司的工作。结果干了两年我的目标函数变了,我的目标变成了白酒喝得越多越好,于是我辞职去一个销路不佳的白酒厂当会计,就为蹲它拿卖不出去的白酒给我发工资。
改变目标函数也可以解释成一种“走一步看一步”。
最后我觉得还是可以回到博弈论的框架下,无视上述的两个疑惑来说两句。
其实动态博弈中任何带有惩罚机制的策略,都可以解释成“走一步看一步”。最简单的例子是动态版的囚徒困境中的一个均衡策略:每个人都实施“以牙还牙”策略(trigger strategy)。
一开始执行“合作”,一旦发现对方背叛,就执行数期“背叛”,再开始执行“合作”,如是往复。
这好像又能解释成“走一步看一步”。
所以长辈给出“走一步看一步”的建议,无非是希望把你从诸如
的问题中解放出来,给你一个稍微简单一点的问题。
但是贝尔曼老爷直接给了你一个两期的呀,而且那个在一些不太苛刻的条件下可以解呀。
这可能就是厉害的数学家和普通人之间的分别了吧。