「走一步看一步」是一个好建议吗？

日报标题：数学家眼里，「走一步看一步」的生活态度是一场博弈

Reinhardt Jin，1 SB PhD

我想先问一个问题：如果把它刻画成一个博弈，那么博弈对手是谁？

肯定会有人认为，我的博弈对手就是全社会或者我周边的环境。那么我想问的是：到底什么样的个体才能把“全社会”当成博弈对手来看待？

举个栗子，大家学产业组织时学过一种市场结构，其中有一个垄断者享有定价权，另外有一堆产能有限的小儿子企业根据垄断者的决策来做决策。在这种情形下，垄断者是可以去计算那一票小儿子企业加总的“反应函数”，从而制定自己的策略的。

对于个人来说，很少会发生这样的情况。在绝大部分情况下，把社会当成博弈对手去考虑，还不如把社会当成状态变量来考虑。然后这么转一圈又回到动态规划的思路上去了。

我的另一个问题是：“走一步看一步”足够精确吗？

用动态规划的眼光看，我觉得“走一步看一步”是个非常模糊的说法，什么都可以往里装。至少有两种可能：

1）行为方式（Policy function）不变，根据环境（state var）的变化，调整自己的行动（control var）

2）环境改变后，改变行为方式（policy function）

第一种解释，和 policy function 本身的逻辑一致：一个从一而终（具有 dynamic consistent preference）的人，根据环境的变化，走一步看一步。

第二种解释，代表人的目标函数变了（或具有 dynamic inconsistent preference）。所以最后解出来的 policy function 也变了。例如我原来的目标是钱挣得越多越好，于是我在所有工作邀约里选了一个咨询公司的工作。结果干了两年我的目标函数变了，我的目标变成了白酒喝得越多越好，于是我辞职去一个销路不佳的白酒厂当会计，就为蹲它拿卖不出去的白酒给我发工资。

改变目标函数也可以解释成一种“走一步看一步”。

最后我觉得还是可以回到博弈论的框架下，无视上述的两个疑惑来说两句。

其实动态博弈中任何带有惩罚机制的策略，都可以解释成“走一步看一步”。最简单的例子是动态版的囚徒困境中的一个均衡策略：每个人都实施“以牙还牙”策略（trigger strategy）。

一开始执行“合作”，一旦发现对方背叛，就执行数期“背叛”，再开始执行“合作”，如是往复。

这好像又能解释成“走一步看一步”。

所以长辈给出“走一步看一步”的建议，无非是希望把你从诸如

的问题中解放出来，给你一个稍微简单一点的问题。

但是贝尔曼老爷直接给了你一个两期的呀，而且那个在一些不太苛刻的条件下可以解呀。

这可能就是厉害的数学家和普通人之间的分别了吧。

阅读原文

「走一步看一步」是一个好建议吗？

Trending Articles

《沈冰自述——我和周永康的故事》全本

Moog - Subsequent 25

出售: 林憶蓮•回來愛的身邊 (東芝1A1頭版)

筆記 - 使用 PowerShell 清除停用 AD 帳號與 OU

df-dferh-01 中国区 Android 安装 Google Play Store 后报错的解决办法

「一棒接一棒、棒棒強棒」108學年度家長會長交接典禮

吸烟与MBTI类型判断捷径 (豆瓣 INFJ的奇幻之旅小组)

acermark龍璿國際展出多款包裝設備

枋寮北勢寮隆山宮睽違12年再辦迎王祭典

日本女优有村千佳COS集锦：狂三&黑白岩&亚丝娜&绫波丽

有遇到过这个问题么。/jsb-videoplayer.js not found, possible missing file.

MAS v2.8 magicgenius 汉化版 - 11.11更新

出售: Monster Cable Interlink Reference 2

福建佛教人士望云和尚(林斌)的九仙禅寺被强行收走，望云妈妈被赶出寺庙

R 语言中的OpenBLAS*和英特尔® 数学核心函数库的性能比较

[转载]煞貢、直星、人專吉日\金神七煞歌

HAKERS哈克士戶外 12月8~14日廠拍

OBS Studio 23.2.1 免安裝中文版 - 免費網路實況廣播軟體實況主必備軟體取代Fraps

<請教>行駛中安卓機會重新開機

Udp2raw-tunnel 及其一键安装脚本