Quantcast
Channel: 知乎日报
Viewing all articles
Browse latest Browse all 20608

「走一步看一步」是一个好建议吗?

$
0
0

日报标题:数学家眼里,「走一步看一步」的生活态度是一场博弈

Reinhardt Jin,1 SB PhD

我想先问一个问题:如果把它刻画成一个博弈,那么博弈对手是谁?

肯定会有人认为,我的博弈对手就是全社会或者我周边的环境。那么我想问的是:到底什么样的个体才能把“全社会”当成博弈对手来看待?

举个栗子,大家学产业组织时学过一种市场结构,其中有一个垄断者享有定价权,另外有一堆产能有限的小儿子企业根据垄断者的决策来做决策。在这种情形下,垄断者是可以去计算那一票小儿子企业加总的“反应函数”,从而制定自己的策略的。

对于个人来说,很少会发生这样的情况。在绝大部分情况下,把社会当成博弈对手去考虑,还不如把社会当成状态变量来考虑。然后这么转一圈又回到动态规划的思路上去了。

我的另一个问题是:“走一步看一步”足够精确吗?

用动态规划的眼光看,我觉得“走一步看一步”是个非常模糊的说法,什么都可以往里装。至少有两种可能:

1)行为方式(Policy function)不变,根据环境(state var)的变化,调整自己的行动(control var)

2)环境改变后,改变行为方式(policy function)

第一种解释,和 policy function 本身的逻辑一致:一个从一而终(具有 dynamic consistent preference)的人,根据环境的变化,走一步看一步

第二种解释,代表人的目标函数变了(或具有 dynamic inconsistent preference)。所以最后解出来的 policy function 也变了。例如我原来的目标是钱挣得越多越好,于是我在所有工作邀约里选了一个咨询公司的工作。结果干了两年我的目标函数变了,我的目标变成了白酒喝得越多越好,于是我辞职去一个销路不佳的白酒厂当会计,就为蹲它拿卖不出去的白酒给我发工资。

改变目标函数也可以解释成一种“走一步看一步”。

最后我觉得还是可以回到博弈论的框架下,无视上述的两个疑惑来说两句。

其实动态博弈中任何带有惩罚机制的策略,都可以解释成“走一步看一步”。最简单的例子是动态版的囚徒困境中的一个均衡策略:每个人都实施“以牙还牙”策略(trigger strategy)。

一开始执行“合作”,一旦发现对方背叛,就执行数期“背叛”,再开始执行“合作”,如是往复。

这好像又能解释成“走一步看一步”。

所以长辈给出“走一步看一步”的建议,无非是希望把你从诸如 

的问题中解放出来,给你一个稍微简单一点的问题。

但是贝尔曼老爷直接给了你一个两期的呀,而且那个在一些不太苛刻的条件下可以解呀。

这可能就是厉害的数学家和普通人之间的分别了吧。


Viewing all articles
Browse latest Browse all 20608

Trending Articles